Dokumenty, které se povedlo získat serveru 404 Media, ukazují na možný problém pro společnost Nvidia. Zjistilo se totiž, že Nvidia měla pro trénink svých modelů pro AI využívat obrovské množství videí z YouTube, aniž by k tomu měla oprávnění. Problém se tak netýká jen startupů, ale i nejhodnotnějších firem světa (známé případy jsou např. s OpenAI nebo Stable Diffusion). Tato videa měla být použita pro trénink modelu Cosmos pro autonomní vozy, systém AI avatarů ("digitálních lidí") i pro projekt Omniverse, nástroj pro vytváření 3D světa. Aby se Nvidia vyhnula odhalení, využila velké množství virtuálních strojů s rotujícími IP adresami.

V dokumentech Nvidie se měla objevit korespondence o tom, jaký přístup se má zvolit, např. to, že se Nvidia nemá ptát YouTube o svolení, ale bude doufat, že se na to nepřijde a případné otázky se budou klást až pak (ideálně tedy nikdy). Výsledkem bylo, že se jim pro trénování podařilo získat každý den videa v délce celého lidského života (tedy desítky let). V případě otázek ohledně etiky a legálnosti těchto procesů bylo zaměstnancům řečeno, že je to posvěceno seshora, což měl tvrdit i Ming-Yu Liu, viceprezident Nvidie pro výzkum. Moc lidí nad ním už není.

To ale není jediný případ. Podle 404 Media Nvidia použila pro trénink rovněž dataset HD-VG-130M, což je kompilace 130 milionů YouTube videí určených pro akademický výzkum. Potíž je ale v tom, že tento dataset byl použit pro komerční výzkum, a to už dovoleno není. Podle YouTube jde o jasné porušení pravidel služeb, naopak Nvidia tvrdí, že všechny jejich AI praktiky jsou v plném souladu s autorskými právy. Stejný problém s YouTube má i již zmíněné OpenAI, kde je rovněž podezření na to, že její systém Sora byla natrénován na videích z YouTube.