AI Microsoft VALL-E potřebuje jen 3sekundovou ukázku k reprodukci hlasu

Umělá inteligence dělá pokroky a nový systém VALL-E od Microsoftu se soustředí na reprodukci zvuku a hlasu. Jeho poslední varianta dokáže reprodukovat hlas z ukázky, která jen pouhé 3 sekundy.

Reklama

Deepfakes jsou stále větší hrozbou a další vývoj v oblasti obrazu a zvuku ukazuje, že bude čím dál tím těžší rozeznat skutečnost od podvrhu. Pokroky ukazuje i umělá inteligence VALL-E od Microsoftu, která byla natrénována na datasetu LibriLight od Mety, kde je přes 60 tisíc hodin nahrávek v angličtině od 7000 různých lidí. Přestože jde jen o docela raná stádia vývoje systému, dosahuje velmi působivých výsledků, ačkoli má třeba docela problémy s reprodukcí přízvuků. Systém je založen na modelu EnCodec od Mety, který byl zveřejněn v říjnu 2022.

AI Microsoft VALL-E potřebuje jen 3sekundovou ukázku k reprodukci hlasu

VALL-E zdaleka nepotřebuje k poměrně věrné reprodukci hlasu kvanta nahrávek dané osoby, ale stačí ji pouhé 3 sekundy. Pochopitelně u některých lidí zní reprodukce poněkud strojově, u jiných je i s tak krátkým časem výsledek dost dobrý. Ukázky si můžete poslechnout na stránkách projektu. Výsledky tohoto systému (a podobných) by mohly najít své místo např. v aplikacích TTS (text-to-speech), tedy převodu textu na řeč, která bude znít realisticky.

Reklama

Komentáře