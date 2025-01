Trénování AI vyžaduje obrovské množství dat. Jenže to se ukazuje jako problém. Těchto dat kupodivu není dostatek. Alespoň to tvrdí Elon Musk, který pronesl, že v loňském roce lidstvo vyčerpalo dostupná trénovací data, veškeré lidské vědění, a pro další pokroky bude potřeba nasadit další metody. Jeho společnost xAI, ale i konkurenční firmy už nějakou dobu pošilhávají i po jiných zdrojích dat. Mluví se především o syntetických datech, tedy datech vytvořených počítači i samotnými AI systémy. Ta by měla doplnit data vytvořená lidmi a AI by se tak měla učit sama na svých vlastních výsledcích. Někteří vědci ale varují, že to může vést k postupnému kolapsu AI modelů, které se stanou méně "kreativnímu" a více předpojatými. Neustále se totiž budou utvrzovat ve zkresleních daných původní trénovací množinou.



Výhodou tohoto přístupu je cena. Např. startup Writer, který vyvíjí model Palmyra X 004, spotřeboval na vývoj 700 tisíc USD díky masivnímu využití syntetických dat, zatímco se předpokládá, že OpenAI by pro vývoj podobného modelu potřebovalo zhruba 4,6 mil. USD. Ostatně agentura Gartner předpokládá, že už dnes giganti jako Microsoft, Meta, OpenAI nebo Anthropic používají cca 60 % syntetických dat.

Dalšími možnostmi, jak navýšit množství trénovacích dat [mimo to, co zmiňoval Musk], je převést data dosud dostupná pouze v offline světě do online podoby. Další možností může být zpřístupnění informací nyní schovaných za paywallem, což zvýší náklady na možnost přístupu (tento přístup je už běžný v oblasti obrazu, kdy autoři modelů platí fotobankám za jejich kolekce fotografií, ilustrací i videí, ale zatím ne u textu). V neposlední řadě je tu i možnost toho, že lidé budou sami cíleně vytvářet nová trénovací data. Existují projekty, které lidem platí za různé typy textů pro trénování AI, mnohdy jde ale o různé scamy.