AMD se "blíží" k Nvidii v trénování LLM: Instinct MI250 má 80 % výkonu A100

Drtivou většinu trénování systémů LLM, které se používají např. v chatbotech, mají na starosti akcelerátory od Nvidie. Své technické řešení má i AMD, přičemž i stávající Instinct MI250 na tom není vůbec špatně.

Reklama

Generativní AI a umělá inteligence obecně je v poslední době velkým tématem zejména poté, co se objevil ChatGPT. Aby něco takového mohlo fungovat, je potřeba takový systém natrénovat. A k tomu je zapotřebí obrovského výpočetního výkonu. Pro tento účel se zpravidla využívají GPU od Nvidie (ty nyní mají 95 % trhu). Společnost AMD má nicméně od roku 2021 akcelerátory Instinct MI250, které mohou také posloužit, a jak se přesvědčili na MosaicML, trénování LLM jde i těmto více než 1,5 roku starým akcelerátorům od AMD docela dobře. Vyzkoušeli PyTorch 2.0 a ROCm 5.4 s tím, že na kódu pro trénování neprovedli vůbec žádné změny, a to, co běželo na Nvidii, beze změn pustili na kartách AMD (dosud byly mírné změny potřeba).

AMD se "blíží" k Nvidii v trénování LLM: Instinct MI250 má 80 % výkonu A100

Jejich LLM Foundry, konkrétně trénování modelu MPT-1B LLM fungovalo na AMD MI250 i Nvidii A100 stabilně a dokonce byli schopni během trénování přehazovat zátěž z karet AMD na Nvidii a zpět. Zkoušeli LLM s 1 až 13 miliardami parametrů a zjistili, že pokud jde o výkon, MI250 má zhruba 80 % výkonu A100-40GB a 73 % výkonu varianty A100-80GB. Výhodou AMD je větší paměť. Zatímco A100 končí na 80 GB, MI250 má 128GB paměti HBM, může tedy pojmout větší modely. Má vyšší výkon na jednu kartu v FP16, a to 362 TFLOPS proti 312 TFLOPS u Nvidie, jenže zatímco Nvidia umožňuje vytvářet systémy s 8 kartami (tedy 2496 TFLOPS), AMD v případě MI250 končí na 4 kartách (1448 TFLOPS). Jinak řečeno, pro dosažení podobného výkonu je potřeba koupit zhruba 2krát tolik systémů od AMD. Rozdíly mezi řešeními pak vidíte v tabulce.

Tyto výsledky ukazují, že AMD v tomto ohledu sice dokáže konkurovat řešením Nvidie, ta má ale stále vedení. AMD navzdory předpokladům (na jednotlivou kartu vyšší hrubý výkon, větší paměť i vyšší paměťová propustnost) nedokáže dosáhnout vyššího praktického výkonu při trénování. Má to ještě jeden problém, proč se AMD jen "blíží" Nvidii a používáme uvozovky. Nvidia A100 není nejrychlejší kartou, která je u Nvidie dostupná. Tou je Nvidia H100, a ta nabídne v trénování ještě asi 2-3krát vyšší výkon než A100. Na druhou stranu AMD oznámilo Instinct MI300, která přechází z nynější architektury CDNA 2 na modernější CDNA 3, v případě varianty MI300X se pak můžeme těšit na 192 GB paměti HBM3 (Nvidia stále jen 80 GB). Hovoří se také o propustnosti 5,2 TB/s, zatímco Nvidia má 3,2 TB/s. Jak si bude MI300X stát proti H100, na to si ještě budeme muset počkat.