Lyrebird umí zkopírovat hlas kohokoliv z minutového záznamu

25.4.2017, Jan Vítek, aktualita

Montrealská společnost Lyrebird prezentovala svou technologii syntetizace hlasu, která umožní v krátké době "ukrást" hlas kohokoliv. Můžeme si tak poslechnout třeba rozhovor známých politiků v krátké ukázce.

Společnost Lyrebird složená ze tří doktorandů na University of Montréal tak už předvedla své API založené na umělé inteligenci (hluboké učení a neuronové sítě), které nám umožní s využitím pouze minutového záznamu řeči dané osoby syntetizovat její hlas. To znamená, že nejde jen o zkopírování řečených slov, neboť daná osoba ani nemusí říci všechna slova. AI zkopíruje styl řeči a vytvoří jeji syntetizaci na míru, čili ve výsledku můžeme tímto vypůjčeným hlasem říci cokoliv. Nádavkem pak můžeme i určit to, v jakém rozpoložení se virtuální řečník má nacházet, čili zda má být rozčílený, stresovaný, apod.

Můžeme si tak poslechnout, jak systém Lyrebird společně vychvalují Barack Obama, Donald Trump a Hillary Clinton, kteří by se v reálném rozhovoru možná jen těžko na něčem shodli.

Z ukázky je sice občas velice znát, že řeč je syntetizovaná, ale celkově jde o velice dobrý výsledek, neboť jednotlivé osoby skutečně lze bezpečně poznat. K dispozici je pak i několik dalších ukázek, které mají Lyrebird k dispozici na Soundcloudu.

Tato technologie bude nepochybně dále vylepšována a je otázka, v jaké kvalitě bude k dispozici široké veřejnosti. Bude velice zajímavé mít možnost nechat si přečíst pohádku na dobrou noc třeba hlasem Vlasty Buriana nebo kohokoliv jiného, ovšem na druhou stranu může jít i o nebezpečný nástroj v ruce někoho, jehož úmysly nebudou moc čisté. U soudu by pochopitelně takový pokus o podvod těžko prošel, ale je daleko více jiných možností, jak škodit. I proto si Lyrebird připravili stránku, kde upozorňují na etickou stránku věci.

Můžeme také připomenout, že společnost Adobe představila podobnou technologii pod projektem VoCo. Ovšem ta vyžadovala, aby měl systém k dispozici kolem 20 minut ukázkové řeči dané osoby a také celý softwarový balík nainstalovaný na klientském počítači. Systému Lyrebird stačí minuta a připravuje se cloudové API, do nějž danou audio ukázku nahrajeme a zpět si stáhneme audio soubor s přečteným textem.

Lyrebird vidí potenciál i ve využití v animovaných filmech nebo i v počítačových hrách, což znamená, že dabéři se už pomalu mohou začít strachovat o svou práci. Však kdo jim bude platit, když bude mít možnost ve své hře využít hlas kohokoliv budou chtít, třeba i "ze záhrobí", a to zdarma a ihned? Otázky můžeme mít ohledně vlastnických práv a zda zákony vůbec myslí na takovou technologii.

Zdroj: Lyrebird