Aktuality  |  Články  |  Recenze
Doporučení  |  Diskuze
Grafické karty a hry  |  Procesory
Storage a RAM
Monitory  |  Ostatní
Akumulátory, EV
Robotika, AI
Průzkum vesmíru
Digimanie  |  TV Freak  |  Svět mobilně

Apple netrénuje své LLM na kartách Nvidie, ale na Google TPU

7.8.2024, Milan Šurkala, aktualita
Apple netrénuje své LLM na kartách Nvidie, ale na Google TPU
Výpočetní karty společnosti Nvidia jsou standardním hardwarem používaným pro trénování systémů umělé inteligence. Společnost Apple ale sáhla ke konkurenci, ke Googlu s jeho TPUv4 a TPUv5. Dozvěděli jsme se ale i další detaily.
Nvidia má drtivou většinu trhu pro trénování systémů umělé inteligence, různých LLM a podobných. Přesto tu jsou i alternativní možnosti a právě takovou využila společnost Apple pro trénování svých vlastní LLM AFM-server a AFM-on-device. Ty jsou součástí nové Apple Intelligence a nedávno se Apple podělil o některé detaily z trénování těchto systémů. Mezi nimi je např. i to, že použil cloudovou infrastrukturu společnosti Google a nikoli systémy založené na výpočetních kartách Nvidie.
 
Pro trénování AFM-server bylo použito 8192 TPUv4, přičemž prvotní trénování bylo postaveno na 6,3 bilionu tokenů a výsledkem byl model se 6,4 miliardami parametrů. Trénování AFM-on-device, tedy systému, který poběží lokálně na zařízeních, jako jsou Apple iPhone, iPad nebo Mac (např. MacBook), byl základem model AFM-server, který byl náležitě ořezán a dotrénován tak, že je výsledkem model s 3 miliardami parametrů. Toto trénování probíhalo na 2048 TPUv5.
 
Apple se také podělil o další detaily jako např. to, kde vzal vlastně data pro trénování. Jde např. o licencované články od vydavatelů, kteří je dobrovolně poskytli, open-source datasety a veřejně přístupné informace, které respektovaly nastavení souboru robots.txt (byl využit crawler Applebot). Nebyla použita osobní data uživatelů, která byla případně odstraněna. Zdrojové kódy pro trénování programátorských schopností byly získány z GitHubu tam, kde to umožňovala licence, a to pro jazyky Swift, Python, C, Objective-C, C++, JavaScript, Java a Go. Pro matematiku byly využity dva dostupné datasety (Math Q&A, který zahrnuje 3 miliardy tokenů z 20 domén věnujících se matematice, druhým setem je 14 miliard tokenů z matematických fór, blogů, tutoriálů nebo seminářů).
 


Autor: Milan Šurkala
Vystudoval doktorský program v oboru informatiky a programování se zaměřením na počítačovou grafiku. Nepřehlédněte jeho seriál Fotíme s Koalou o základech fotografování.