Společnost AMD přichází s dalším výpočetním akcelerátorem. Jmenuje se Instinct MI325X a nahrazuje původní (a docela i úspěšný) akcelerátor MI300X. V prezentaci se AMD vymezuje především proti konkurenční Nvidii H200, což se ale dalo očekávat z důvodu toho, že mezi MI325X a MI300X není znatelný rozdíl, alespoň co se čipu týče. Novinka je nadále postavena na architektuře CDNA 3, vyráběna 5nm a 6nm procesem u TSMC, má stejných 304 CU a 19456 stream procesorů, dokonce i frekvence 2100 MHz je totožná. Neliší se tak ani výpočetní výkon 2,61 PFLOPS v FP8, 1,3 PFLOPS v FP16 nebo 2,6 POPS v INT8. Čip má nadále 153 mld. tranzistorů.



Tak kde se udála změna? Ta je především v oblasti paměti. Zatímco LLC (Last Level Cache) je stále na 256 MB, místo 192 GB paměti HBM3 tu máme 256 GB rychlejší paměti HBM3E. To znamená, že pojme ještě větší LLM. Zůstává 8192bitová sběrnice pamětí, nicméně frekvence se zvyšuje z 5,2 GHz na 6 GHz a spolu s tím i propustnost z 5,3 TB/s na 6 TB/s. Karty jsou ve formě OAM Module se sběrnicí PCIe 5.0 x16. Stinnou stránkou je ale výrazné navýšení TBP, a to ze 750 W na 1000 W, což je docela s podivem, uvážíme-li, že na straně čipu se nic nezměnilo, a máme tu akorát větší a rychlejší paměť.

AMD srovnalo výkon nového akcelerátoru MI325X s kartami Nvidia H100 a říká, že je o 40 % rychlejší v inferenci Mixtral 8x7B, o 30 % v Mistral 7B a o 20 % v Meta Llama-3.1 70B. V případě serveru s 8 kartami MI325X je inference rychlejší o 40 % v Llama-3.1 405B a o 20 % ve 70B verzi téhož. Trénování není až tak silnou stránkou Instinctů, nicméně v konfiguraci jednoho GPU nabídne o 10 % vyšší trénovací výkon v Meta Llama-2 7B než H100 a je stejně výkonný v konfiguraci 8 GPU v Llama-2 70B. To, že si AMD vybírá různé verze modelů s různou velikostí v různých konfiguracích nicméně napovídá, že v těch nezveřejněných (a že jich je) ty výsledky možná nebudou tak dobré. Výsledky ale neznáme.



AMD rovněž poodhalilo chystanou verzi Instinct MI355X. Ten už bude vyráběn 3nm technologií, dostane dokonce 288 GB paměti HBM3E na kartu a nově bude podporovat datové typy FP4 a FP6. Výkon čipu by se měl zvýšit o 80 %, např. v FP16 z 1,3 na 2,3 PFLOPS, v FP8 pak z 2,6 na 4,6 PFLOPS. V případě FP6 a FP4 bude výkon dokonce 9,2 TFLOPS na kartu. Co se týče propustnosti pamětí, tak ta má vzrůst dokonce na 8 TB/s.