Recenze  |  Aktuality  |  Články
Doporučení  |  Diskuze
Grafické karty
Chlazení a skříně
Ostatní
Periférie
Procesory
Storage a RAM
Základní desky
O nás  |  Napište nám
Facebook  |  Twitter
Digimanie  |  TV Freak
Svět mobilně  |  Svět audia

AI Microsoft VALL-E potřebuje jen 3sekundovou ukázku k reprodukci hlasu

, , aktualita
AI Microsoft VALL-E potřebuje jen 3sekundovou ukázku k reprodukci hlasu
Umělá inteligence dělá pokroky a nový systém VALL-E od Microsoftu se soustředí na reprodukci zvuku a hlasu. Jeho poslední varianta dokáže reprodukovat hlas z ukázky, která jen pouhé 3 sekundy.
AI Microsoft VALL-E potřebuje jen 3sekundovou ukázku k reprodukci hlasu
Deepfakes jsou stále větší hrozbou a další vývoj v oblasti obrazu a zvuku ukazuje, že bude čím dál tím těžší rozeznat skutečnost od podvrhu. Pokroky ukazuje i umělá inteligence VALL-E od Microsoftu, která byla natrénována na datasetu LibriLight od Mety, kde je přes 60 tisíc hodin nahrávek v angličtině od 7000 různých lidí. Přestože jde jen o docela raná stádia vývoje systému, dosahuje velmi působivých výsledků, ačkoli má třeba docela problémy s reprodukcí přízvuků. Systém je založen na modelu EnCodec od Mety, který byl zveřejněn v říjnu 2022.
 
Microsoft VALL-E
 
VALL-E zdaleka nepotřebuje k poměrně věrné reprodukci hlasu kvanta nahrávek dané osoby, ale stačí ji pouhé 3 sekundy. Pochopitelně u některých lidí zní reprodukce poněkud strojově, u jiných je i s tak krátkým časem výsledek dost dobrý. Ukázky si můžete poslechnout na stránkách projektu. Výsledky tohoto systému (a podobných) by mohly najít své místo např. v aplikacích TTS (text-to-speech), tedy převodu textu na řeč, která bude znít realisticky.
 


reklama