Aktuality  |  Články  |  Recenze
Doporučení  |  Diskuze
Grafické karty a hry  |  Procesory
Storage a RAM
Monitory  |  Ostatní
Akumulátory, EV
Robotika, AI
Průzkum vesmíru
Digimanie  |  TV Freak  |  Svět mobilně

AI Microsoft VALL-E potřebuje jen 3sekundovou ukázku k reprodukci hlasu

13.1.2023, Milan Šurkala, aktualita
AI Microsoft VALL-E potřebuje jen 3sekundovou ukázku k reprodukci hlasu
Umělá inteligence dělá pokroky a nový systém VALL-E od Microsoftu se soustředí na reprodukci zvuku a hlasu. Jeho poslední varianta dokáže reprodukovat hlas z ukázky, která jen pouhé 3 sekundy.
Deepfakes jsou stále větší hrozbou a další vývoj v oblasti obrazu a zvuku ukazuje, že bude čím dál tím těžší rozeznat skutečnost od podvrhu. Pokroky ukazuje i umělá inteligence VALL-E od Microsoftu, která byla natrénována na datasetu LibriLight od Mety, kde je přes 60 tisíc hodin nahrávek v angličtině od 7000 různých lidí. Přestože jde jen o docela raná stádia vývoje systému, dosahuje velmi působivých výsledků, ačkoli má třeba docela problémy s reprodukcí přízvuků. Systém je založen na modelu EnCodec od Mety, který byl zveřejněn v říjnu 2022.
 
Microsoft VALL-E
 
VALL-E zdaleka nepotřebuje k poměrně věrné reprodukci hlasu kvanta nahrávek dané osoby, ale stačí ji pouhé 3 sekundy. Pochopitelně u některých lidí zní reprodukce poněkud strojově, u jiných je i s tak krátkým časem výsledek dost dobrý. Ukázky si můžete poslechnout na stránkách projektu. Výsledky tohoto systému (a podobných) by mohly najít své místo např. v aplikacích TTS (text-to-speech), tedy převodu textu na řeč, která bude znít realisticky.
 


Autor: Milan Šurkala
Vystudoval doktorský program v oboru informatiky a programování se zaměřením na počítačovou grafiku. Nepřehlédněte jeho seriál Fotíme s Koalou o základech fotografování.