Výpočetní karty společnosti Nvidia jsou standardním hardwarem používaným pro trénování systémů umělé inteligence. Společnost Apple ale sáhla ke konkurenci, ke Googlu s jeho TPUv4 a TPUv5. Dozvěděli jsme se ale i další detaily.
Nvidia má drtivou většinu trhu pro trénování systémů umělé inteligence, různých LLM a podobných. Přesto tu jsou i alternativní možnosti a právě takovou využila společnost Apple pro trénování svých vlastní LLM AFM-server a AFM-on-device. Ty jsou součástí nové Apple Intelligence a nedávno se Apple podělil o některé detaily z trénování těchto systémů. Mezi nimi je např. i to, že použil cloudovou infrastrukturu společnosti Google a nikoli systémy založené na výpočetních kartách Nvidie.
Pro trénování AFM-server bylo použito 8192 TPUv4, přičemž prvotní trénování bylo postaveno na 6,3 bilionu tokenů a výsledkem byl model se 6,4 miliardami parametrů. Trénování AFM-on-device, tedy systému, který poběží lokálně na zařízeních, jako jsou Apple iPhone, iPad nebo Mac (např. MacBook), byl základem model AFM-server, který byl náležitě ořezán a dotrénován tak, že je výsledkem model s 3 miliardami parametrů. Toto trénování probíhalo na 2048 TPUv5.
Apple se také podělil o další detaily jako např. to, kde vzal vlastně data pro trénování. Jde např. o licencované články od vydavatelů, kteří je dobrovolně poskytli, open-source datasety a veřejně přístupné informace, které respektovaly nastavení souboru robots.txt (byl využit crawler Applebot). Nebyla použita osobní data uživatelů, která byla případně odstraněna. Zdrojové kódy pro trénování programátorských schopností byly získány z GitHubu tam, kde to umožňovala licence, a to pro jazyky Swift, Python, C, Objective-C, C++, JavaScript, Java a Go. Pro matematiku byly využity dva dostupné datasety (Math Q&A, který zahrnuje 3 miliardy tokenů z 20 domén věnujících se matematice, druhým setem je 14 miliard tokenů z matematických fór, blogů, tutoriálů nebo seminářů).