Aktuality  |  Články  |  Recenze
Doporučení  |  Diskuze
Grafické karty a hry  |  Procesory
Storage a RAM
Monitory  |  Ostatní
Akumulátory, EV
Robotika, AI
Průzkum vesmíru
Digimanie  |  TV Freak  |  Svět mobilně

Kdo rychleji natrénuje GPT-3? Zveřejněny výsledky akcelerátorů Intelu a Nvidie

4.7.2023, Milan Šurkala, aktualita
Kdo rychleji natrénuje GPT-3? Zveřejněny výsledky akcelerátorů Intelu a Nvidie
Trénování systémů umělé inteligence je v poslední době velké téma a Intel je prozatím jediným, kdo má výsledky v novém benchmarku MLPerf pro trénování GPT-3. Navíc na září slibuje výkonnostní vzpruhu díky vylepšenému softwaru.
Umělá inteligence zasahuje do stále více technologií, které používáme v našich životech. Poslední dobou se do popředí dostává i generativní AI, především systémy založené na GPT. Drtivou většinu trénování takových systémů mají na starosti GPU od Nvidie, jejichž podíl vzrostl už na 95 %. Své chce ale říci i AMD (to nedávno představilo Instinct MI300) a Intel, který před několika týdny představil svůj čip Habana Gaudi2 (ten má na starosti Habala Labs, která nyní spadá pod Intel).
 
Intel Gaudi2
 
Právě tento čip je jedním z mála, který se objevil v databázi výsledků benchmarku MLPerf od ML Commons. Tam je několik různých testů a nedávno zde právě přibyla i kolonka pro trénování generativní AI založené na systému GPT-3. Další systémy, které mají výsledky v databázi pro trénování GPT-3, pak byly založeny na 80GB verzích Nvidia X100-SXM-5. Bude Intel stačit Nvidii, která je v podstatě téměř jediným používaným řešením?
 
Zde ještě připomeňme, že Intel Gaudi2 proti první generaci přešel ze 16nm na 7nm výrobní proces, počet Tensor Processor Cores pro zpracování algoritmů AI se zvýšil z 8 na 24, přibyla podpora FP8 a také se 3násobila kapacita pamětí HBM2e na 96 GB, přičemž ta má propustnost 2,45 TB/s.
 
Intel Gaudi2 ResNet50
 
Při své prezentaci se Intel nepřekvapivě soustředil na ty testy, ve kterých byl lepší, a tak např. klasifikace obrázků přes model ResNet50 přináší proti 80GB verzi Nvidia A100 o 80 % lepší výkon. Zde ale připomeňme, že novější Nvidia H100 má dle Nvidie i většiny benchmarků v této úloze zhruba okolo 90 % vyšší výkon, takže nový Intel na ni těsně nestačí. Jenže na H100 se zde zapomnělo.
 
Intel Gaudi2 Bert-L
 
Podobné výsledky máme i u trénování NLP BERT-L. Proti A100 má Intel 80% náskok, proti 40GB verze Nvidie dokonce 140% (má 2,4krát tolik výkonu). Bohužel Intel opět opomněl použít Nvidii H100, která má proti A100 v této úloze obvykle cca 3násobný výkon.
 
Ale jak je na tom trénování LLM, tedy systémů jako GPT-3? Nvidia tu má celkem 5 záznamů s akcelerátory H100-SXM-5-80GB. Se 128 akcelerátory H100 bylo potřeba 64,3 minuty na natrénování, s 896 takovými akcelerátory to pak bylo 10,9 minuty. Vidíme, že to neškáluje úplně perfektně, ale můžeme si dovolit odhady v tom, kolik by to trvalo jednomu takovému akcelerátoru za předpokladu perfektního škálování.
 
Počet akcelerátorů Nvidia H100
Dosažený čas (minut)
Odhadovaný čas pro 1 akcelerátor
(za předpokladu perfektního škálování)
128
64,264 min
8225,8 min
192
44,816 min
8604,7 min
192
45,606 min
8756,4 min
384
23,611 min
9066,6 min
896
10,940 min
9802,2 min
 
Jak je vidět, škálování není dokonalé, protože 7násobné zvýšení počtu akcelerátorů (ze 128 na 896) nesrazilo čas na sedminu. Jinak řečeno, čas 128 akcelerátorů není 7krát delší, ale jen 5,87krát. Každopádně se dá předpokládat, že jedna H100 by na tuto úlohu pravděpodobně potřebovala pod 8000 minut.
 
Počet akcelerátorů Intel Habana Gaudi2
Dosažený čas (minut)
Odhadovaný čas pro 1 akcelerátor
(za předpokladu perfektního škálování)
64 442,578 min 28325 min
96 311,945 min 29946,7 min
 
Pro Intel to bohužel nevypadá moc dobře a odhady pro jeden akcelerátor jsou minimálně 3násobné. Ostatně 96 akcelerátorů potřebovalo 312 minut, zatímco u Nvidie jich to 128 zvládlo za 64 minut (dá se předpokládat, že 96 Nvidií H100 by na to potřebovalo zhruba 85 minut. Každopádně Intel říká, že softwarový update plánovaný na září by měl výkon jeho systémů zvýšit 1,5× až 2×. Pak by měly být podle Jordana Plawnera, ředitele AI části Habana Labs, akcelerátory Gaudi2 konkurencí Nvidii H100 za nižší cenu.
 


Autor: Milan Šurkala
Vystudoval doktorský program v oboru informatiky a programování se zaměřením na počítačovou grafiku. Nepřehlédněte jeho seriál Fotíme s Koalou o základech fotografování.