Akcelerátor Intel Gaudi 2 je ve Stable Diffusion rychlejší než Nvidia H100
12.3.2024, Milan Šurkala, aktualita
Intel už nějakou dobu vyrábí akcelerátory pro trénování AI řady Gaudi. Jeho poslední model Gaudi 2 je natolik výkonný, že pro trénink generativní AI Stable Diffusion může být rychlejší než Nvidia H100.
Trénování systémů generativní AI se ve většině případů děje na výpočetních kartách společnosti Nvidia, která zde má zastoupení hodně přes 90 %. Přesto jsou zde další společnosti, které vyvíjí své akcelerátory, jako je např. AMD se svými kartami Instinct nebo Intel s kartami Gaudi. Autoři obrazové generativní AI Stable Diffusion 3 se rozhodli postavit proti sobě akcelerátory Nvidie, a to konkrétně A100-80GB a H100-80GB, a Intelu. V tomto případě šlo o model Gaudi 2 s 96 GB paměti HBM2E. Výsledkem je, že pro trénink této umělé inteligence mohou být lepší karty Intelu a nikoli Nvidie.
Využili variantu modelu se 2 miliardami parametrů a optimalizaci xFormers pro Nvidii a FusedSDPA pro Intel. Bylo otestováno 16 akcelerátorů a velikost dávky činila 16 na akcelerátor (celkem tedy 256). Zatímco A100 byla schopna zpracovat 381 obrázků za sekundu, H200 se už dostala na 595 obrázků. Intel však se svými 927 obrázky překonal H200 o 56 %. Díky větší paměti se ale na něj vešla i větší 32kusová dávka, což zvýšilo výkon dokonce na 1254 obr./s. To je o 111 % více než na Nvidii H100 a více než 3násobek toho, co zvládla Nvidia A100.
Testy inference (tedy běhu) AI na Stable Diffusion s 8 miliardami parametrů už ale byly pro Intel o něco horší. Ten zvládl vygenerovat obrázek o rozlišení 1024×1024 pixelů ve 30 krocích za 3,2 sekundy. Nvidia A100 (tedy slabší karta z oněch dvou Nvidií) na to sice potřebovala trochu delších 3,6 sekundy, nicméně přes TensorRT to už zvládla za 2,7 sekundy. Dá se předpokládat, že Nvidia H100 by to zvládla mnohem rychleji a Intel by překonala i v základním nastavení.
Vyzkoušen byl také LLM Stable Beluga 2.5 70B založený na modelu LLaMA 2 70B. Intel Gaudi 2 byl schopen vygenerovat 673 tokenů za sekundu a být tak o 28 % rychlejší než Nvidia A100 s 525 tokeny. Opět je ale dobré připomenout, že autoři zde srovnávali s tou pomalejší z Nvidií. Dále bychom neměli zapomenout na to, že Nvidia nedávno představila nové generace H200 a GH200, které jsou výkonnější. Připomeňme však i to, že Gaudi 2 je už skoro 2 roky starý čip.
Zdroj: wccftech.com, stability.ai