Novi AI Microsoft može oponašati glas bilo koje osobe

U četvrtak istraživači Microsoft najavio novi model umjetne inteligencije (AI) nazvan VALL-E koji može točno oponašati ljudski glas kada mu se da audio uzorak od tri sekunde. Nakon što nauči određeni glas, VALL-E može sintetizirati zvuk te osobe koja govori bilo što, a da pritom sačuva emocionalni ton govornika.

Njegovi autori sugeriraju da se VALL-E može koristiti za visokokvalitetno pretvaranje teksta u govor, uređivanje govora, gdje se snimka osobe može uređivati i mijenjati iz transkripcije teksta (tjerajući ih da govore stvari koje nisu izvorno rekli), i za stvaranje audio sadržaja u kombinaciji s drugim generativnim AI modelima kao što su GPT-3.

Microsoft AI VALL-E

Microsoft naziva VALL-E "jezičnim modelom neuralnog kodeka", a temelji se na tehnologiji pod nazivom EnCodec koju je Meta najavila u listopadu 2022. Za razliku od drugih metoda pretvaranja teksta u govor, koje obično sintetiziraju govor manipulirajući valnim oblicima, VALL-E generira diskretni zvuk kodek kodova iz teksta i akustičnih upita. U osnovi analizira kako osoba zvuči, rastavlja tu informaciju u diskretne komponente (zvane "tokeni") zahvaljujući EnCodec-u i koristi podatke o obuci kako bi uskladio ono što "zna" o tome kako bi taj glas zvučao da izgovara druge fraze vani uzorka od tri sekunde.

Microsoft uvježbao VALL-E-jeve mogućnosti sinteze govora na audio biblioteci koju je sastavio Meta pod nazivom LibriLight. Sadrži 60 7 sati emitiranja na engleskom jeziku od više od XNUMX XNUMX spikera, većinom preuzetih iz javno dostupnih LibriVox audio knjiga.

Uz očuvanje boje glasa i emocionalnog tona spikera, VALL-E također može simulirati "akustično okruženje" audio uzorka. Na primjer, ako je uzorak dobiven iz telefonskog razgovora, sintetizirani audio izlaz će simulirati akustična i frekvencijska svojstva telefonskog razgovora. Također uzorci Microsoft pokazuju da VALL-E može generirati varijacije boje glasa.

Microsoft AI VALL-E

Možda zbog sposobnosti VALL-E da potencijalno omogući prijevaru i prijevaru, Microsoft nije dao VALL-E kod drugima za eksperimentiranje, tako da nećemo moći testirati njegove mogućnosti. Čini se da su istraživači svjesni potencijalne društvene štete koju ova tehnologija može donijeti. U zaključku članka pišu:

“Budući da VALL-E može sintetizirati govor koji čuva identitet govornika, može nositi potencijalne rizike zlouporabe modela, kao što je lažna identifikacija glasa ili oponašanje određenog govornika. Kako bi se smanjili takvi rizici, izgradit će se model prepoznavanja kako bi se razlikovalo je li audio zapis sintetiziran pomoću VALL-E."

Možete pomoći Ukrajini u borbi protiv ruskih osvajača. Najbolji način da to učinite je donirati sredstva Oružanim snagama Ukrajine putem Savelife ili putem službene stranice NBU.

Pročitajte također:

izvorarttechnica

Prijavite se

0 Komentari

Ugrađene recenzije

Pogledaj sve komentare

Ostali članci

Novi AI Microsoft oponaša glas bilo koje osobe iz audio uzorka od 3 sekunde

Nedavni komentari