Intel Ponte Vecchio a Xe HPC: z čeho se skládají a co umí?

19.8.2021, Jan Vítek, aktualita

Marketingová mašina Intelu v poslední době jede na plné obrátky a nyní se díky tomu můžeme podívat i na nové informace, které přinesl Intel Architecture Day 2021. Tentokrát jde o Ponte Vecchio či obecně Xe HPC.

Intel Ponte Vecchio budou s náskokem ty nejsložitější procesory/GPU/akcelerátory, které kdy tato firma vytvořila, to už dávno víme. Uplatní se také v superpočítači Aurora vedle chystaných procesorů Sapphire Rapids a leccos z toho, co se nyní dozvíme, se týká právě i tohoto systému.

Stejně jako v případě herních Xe čipů, hlavní stavebním jednotkou tu bude Xe Core, ovšem pochopitelně ne ve zcela stejné podobě. Máme tu rovněž osm vektorových a osm maticových jednotek (XMX). Vektorové ale využívají 512bitové registry pro výpočty v FP64 a XMX jsou určeny pro 4096bitová data, což znamená potenciálně dvojnásobný výkon vektorového enginu a čtyřnásobný výkon XMX v FP16. Tomu všemu se přizpůsobila také kapacita L1 cache (dokonce 512 kB na jedno Xe Core) a XMX také nezvládají jen FP16 a BF16 jako Xe HPG, ale navíc i formát TF32. Vektorové jednotky v HPG také pochopitelně nejsou určeny pro FP64.

Další úroveň tvořená 16 jednotkami Xe Core je pak jedna Slice, přičemž ta v případě Xe HPG čítá jen 8 Xe Core. Zajímavé přitom je, že jde sice o GPU akcelerátory primárně pro výpočty a ne pro grafiku, ovšem čipům Xe HPC nebude chybět 16 RTU (Ray Tracing Unit) na jednu Slice.

A pak tu máme ještě vyšší úroveň, a sice Xe Stack skládající se ze 4 Slice, a tedy 64 Xe Core i RTU. Jednotlivé Slice jsou v jednom Stack propojeny masivní 144 MB L2 cache, je tu podpora Xe Link s až osmicestnou topologií a dále tu jsou čtyři kontrolery pro paměti HBM2e.

Schopnosti zpracovávat grafiku dokládá i zde zmíněný Media Engine, čili zde opravdu nejde jen o konkurenci pro akcelerátory jako NVIDIA A100 či AMD s architekturou CDNA.

Můžeme se také podívat na to, co tvoří produkt Ponte Vecchio. Směrem seshora tu tak máme základní Compute Tile v počtu osmi, což ovšem není 8x Xe Stack. Každé Compute Tile totiž nese pouze osm Xe Core, čili jeden Stack je tvořen všemi osmi Compute Tile, které budou vyráběny procesem N5 v TSMC.

Mezi nimi jsou Rambo Tile (L2 cache?) plus rozhraní pro HBM2e a PCIe 5.0 sedící společně se všemi Compute Tile na čipu Foveros, který si už bude tvořit Intel sám pomocí procesu 7 (přejmenovaný 10nm proces). Dlaždice pro Xe Link bude zase vyráběna opět v TSMC pomocí N7. A to je vše pochopitelně včetně pamětí HBM2e jen jedna strana ze dvou, pokud jde o Ponte Vecchio.

Intel prozradil, že na jeden takt dokáže tento produkt zpracovat 32.768 operací v FP64, ale neznáme pracovní frekvence. Při rozpětí 1 až 2 GHz to tak může být 8,2 až 16,4 TFLOPS v FP64 na jedno GPU Xe HPC (NVIDIA A100 nabízí 9,7 TFLOPS v FP64) a pokud jde o prototyp, který má Intel k dispozici, ten zvládne 45 TFLOPS v FP32 (NVIDIA A100 - 19,5 TFLOPS).

Superpočítač Aurora využije Blade uzly čítající šest Ponte Vecchio pospojovaných pomocí Xe Link a navíc dva Sapphire Rapids, přičemž se tu počítá s vodním chlazením.

Zdroj: THW