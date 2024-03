V pondělí Jen-Hsun (Jensen) Huang, zakladatel a CEO Nvidie, představil na GTC March 2024 Keynote novou architekturu GPU s názvem Blackwell. Na začátku zdůraznil, že Blackwell není pouze GPU, ale jde o celou platformu. Při využití v datových centrech je totiž GPU pouze část více komplexního systému, který pochází od Nvidie.

V rámci platformy Blackwell došlo k představení GPU B100 a B200, "superčipu" GB200 (2 GPU Blackwell + 1 CPU Grace), rackového systému GB200 NVL72 a dalších navazujících částí systémů pro využití v datových centrech pro akceleraci výpočtů AI. Na GPU s architekturou Blackwell pro desktopové grafické karty GeForce (RTX 5000) si ještě budeme muset nějakou dobu počkat, jelikož o těch zatím nebyla řeč.

- Jensen Huang ukazuje srovnání GPU Blackwell (vlevo) s GPU Hopper -

Blackwell nejenže představuje další velký mezigenerační nárůst výkonu, ale především jde o první chipletovou architekturu GPU od Nvidie. GPU je totiž složené ze 2 chipletů, které tvoří jeden velký čip s celkovým množstvím 208 miliard tranzistorů (2 × 104 miliard), jenž se také z hlediska softwaru chová jako jeden čip, takže chipletové řešení by nemělo mít negativní vliv na výkon.



- nárůst výkonu v akceleraci výpočtů AI napříč generacemi čipů Nvidie za posledních 8 let, nicméně nejsou srovnávané stejné typy výpočtů, vlevo je obrázek nejnovějšího "superčipu" GB200 -



Výrobním procesem je TSMC 4NP, který by měl obsahovat další vylepšení od Nvidie pro GPU Blackwell, protože už GPU ze současných generací s architekturami Hopper a Ada Lovelace jsou vyráběné Nvidií vylepšeným procesem TSMC 4N. Nepotvrdily se tak dřívější spekulace o využití novějšího 3nm procesu od TSMC. Díky tomu a výraznému zvýšení počtu tranzistorů není překvapením, že se to promítlo na zvýšení spotřeby. TDP u B200 je 1000 W a u B100 se jedná o 700 W, což je stejné jako u H100 (Hopper) a jde o jeden z důvodů, proč by mělo být možné provést ve stávajících systémech snadný upgrade z H100 na B100.

U "superčipu" GB200 sice nebylo uvedeno TDP pro jednotlivé čipy, ale jelikož je použito stejné CPU jako u GH200 (předchozího "superčipu" využívajícího GPU Hopper), u kterého mělo CPU hodnotu TDP 300 W, lze si odvodit, že jedno GPU Blackwell by mělo v GB200 dosahovat 1200 W: (2700-300)/2.









GPU Blackwell: složeno ze dvou chipletů

Počet tranzistorů: 208 miliard (2 × 104)

Výrobní proces: TSMC 4NP

Rychlost rozhraní mezi chiplety: 10 TB/s (5 TB/s v každém směru)

Oba chiplety mají k dispozici celou cache GPU

Udávaný výpočetní výkon pro AI: až 20 petaFLOPS

Paměť: 192 GB HBM3e (8 čipů po 24 GB, každý má 1024bitové rozhraní)

Paměťová propustnost: 8 TB/s (1 TB/s na čip, 8 Gb/s na pin)



"Superčip" GB200

Obsahuje 2 GPU Blackwell (viz výše) a 1 CPU Grace

CPU Grace: 72 jader Neoverse V2 (ARM)

Datová propustnost NVLink chip-to-chip: 900 GB/s

Udávaný výpočetní výkon pro AI: až 40 petaFLOPS (2 × 20 petaFLOPS)



Paměť pro GPU: 384 GB HBM3e (2 × 8 čipů po 24 GB, každý má 1024bitové rozhraní)

Paměť pro CPU: až 480 GB

Paměť k dispozici celkově: až 864 GB

GB200 NVL72: rackový systém

Obsahuje 36 "superčipů" GB200 = 72 GPU Blackwell + 36 CPU Grace

Udávaný výpočetní výkon pro AI: 1,44 exaFLOPS (72 × 20 petaFLOPS)

(72 × 20 petaFLOPS) Rackový systém využívá chlazení pomocí vodního okruhu

V prezentaci byl uveden příklad, že pokud by při využití konkrétního modelu GPT-MoE-1.8T trénování AI s využitím 8000 GPU Hopper trvalo 90 dní při spotřebě energie 15 MW, tak při využití systému Blackwell GB200 NVL72 se zachováním stejné doby 90 dní pro dokončení by bylo potřeba jen 2000 GPU Blackwell a spotřeba by byla jen 4 MW (tzn. stejný čas, ale čtvrtinové množství GPU při téměř čtvrtinové spotřebě). Nelze z toho dělat obecný závěr, ale pokud k takto velkým nárůstům účinnosti může v některých případech docházet, je to velký posun kupředu a společnosti si rychle spočítají, kolik by díky tomu mohly ušetřit.





Pro srovnání můžeme uvést, že GPU s architekturou Hopper, což byl dosud nejvýkonnější čip Nvidie pro akceleraci výpočtů AI, obsahuje 80 miliard tranzistorů a výrobním procesem je TSMC 4N.

V prezentaci bylo uvedeno, že v akceleraci výpočtů AI má Blackwell 5násobný výkon v porovnání s H100 (Hopper), jenže je třeba dodat, že takového nárůstu bylo dosaženo při výpočtech FP4, které u H100 nelze provádět. Při srovnání stejného způsobu výpočtů má Blackwell o něco více než 2násobnou rychlost v porovnání s H100. Přičemž u výpočtů FP64 má Blackwell nižší udávaný výkon než H100, takže je evidentní hlavní orientace Nvidie právě na akceleraci výpočtů AI namísto na vědecké výpočty, což je logické vzhledem k aktuální obrovské poptávce právě po co nejrychlejších čipech pro trénování AI.





Hopper - tak šel čas

Grace Hopper. Ten byl GPU H100 (s přesným označením "NVIDIA H100 Tensor Core GPU", přičemž samotný čip má označení GH100) v případě SXM5 verze disponuje 80 GB paměti HBM3 s propustností 3,34 TB/s. Představené bylo 22. března 2022 na GTC 2022 Spring Keynote společně s plánem jej později nabídnout i v konfiguraci, v které by došlo ke spojení s CPU Grace, aby vznikl "superčip". Ten byl představený 28. května 2023 s označením GH200 , přičemž každé GPU H100 má v jeho případě k dispozici 96 GB paměti HBM3. Jen o 2 měsíce později byla 8. srpna 2023 oznámena i volitelná vylepšená verze GH200, u které byla paměť typu HBM3 nahrazena za rychlejší HBM3e a navíc ve větší kapacitě 141 GB na jedno GPU H100 (fyzicky je sice přítomných 144 GB, ale využívat lze jen 141 GB). Je tak možné si vybrat mezi verzí s 96 GB HBM3 s propustností 4 TB/s a verzí se 141 GB HBM3e s propustností 4,9 TB/s. HGX A 13. listopadu 2023 bylo v rámci platformy oznámeno GPU H200 , které taky získalo rychlejší paměť typu HBM3e s propustností 4,8 TB/s a ve větší kapacitě 141 GB. Ada Lovelace pro použití v grafických kartách GeForce RTX 4000, Nvidia RTX pro pracovní stanice (jež byly v dřívějších generacích označované jako Quadro) a A40 nebo A16 pro datová centra. Mezitím byla 20. září 2022 na GTC September 2022 Keynote představena architektura GPU s názvempro použití v grafických kartách GeForce RTX 4000, Nvidia RTX pro pracovní stanice (jež byly v dřívějších generacích označované jako Quadro) a A40 nebo A16 pro datová centra.

Srovnání parametrů Na závěr se můžeme podívat na několik srovnání jednotlivých GPU:



GB200 B200 B100 Konfigurace 2 × GPU B200, 1 × CPU Grace GPU Blackwell GPU Blackwell FP4 Tensor Dense/Sparse (petaFLOPS) 20 / 40 9 / 18 7 / 10 FP6/FP8 Tensor Dense/Sparse (petaFLOPS) 10 / 20 4,5 / 9 3,5 / 7 INT8 Tensor Dense/Sparse (petaOPS) 10 / 20 4,5 / 9 3,5 / 7 FP16/BF16 Tensor Dense/Sparse (petaFLOPS) 5 / 10 2,25 / 4,5 1,8 / 3,5 TF32 Tensor Dense/Sparse (petaFLOPS) 2,5 / 5 1,12 / 2,25 0,9 / 1,8 FP64 Tensor Dense (teraFLOPS) 90 40 30 Paměť 384 GB (2 × 192 GB) 192 GB 192 GB Propustnost 16 TB/s 8 TB/s 8 TB/s Propustnost NVLink 2 × 1,8 TB/s 1,8 TB/s 1,8 TB/s TDP Až 2700 W 1000 W 700 W Zdroj dat v tabulce: Tom's Hardware B200 H100 A100 (80 GB) Architektura Blackwell Hopper Ampere GPU "Blackwell GPU" GH100

(814 mm2) GA100

(826 mm2) Počet tranzistorů 208 miliard (2 × 104) 80 miliard 54,2 miliard Výrobní proces TSMC 4NP TSMC 4N TSMC 7N Formát SXM SXM5 SXM4 Počet jader FP32 CUDA ? 16.896 6912 Počet jader Tensor ? 528 432 Boost frekvence ? 1,98 GHz 1.41 GHz Frekvence paměti 8 Gbps HBM3e 5.23 Gbps HBM3 3,2 Gbps HBM2e Šířka paměťové sběrnice 2 × 4096bit 5120bit 5120bit Paměťová propustnost 8 TB/sec 3,35 TB/sec 2 TB/sec Velikost VRAM 192 GB

(2 × 96 GB) 80 GB 80 GB FP32 Vector (teraFLOPS) ? 67 19,5 FP64 Vector (teraFLOPS) ? 34 9,7 (1/2 FP32) FP4 Tensor (petaFLOPS) 9 - - INT8/FP8 Tensor (petaOPS) 4,5 1,98 0,624 FP16 Tensor (petaFLOPS) 2,25 0,99 0,312 TF32 Tensor (petaFLOPS) 1,1 0,495 0,156 FP64 Tensor (teraFLOPS) 40 67 19,5 Propojení NVLink 5

? linek (1,8 TB/sec) NVLink 4

18 linek (0,9 TB/sec) NVLink 3

12 linek (0,6 TB/sec) TDP 1000 W 700 W 400 W Zdroj dat v tabulce: Anandtech

Zde se můžete podívat na celý záznam prezentace s představením architektury Blackwell:







​​ ​​

Nová architektura byla pojmenována po americkém statistikovi a matematikovi Davidu Haroldovi Blackwellovi (1919 - 2010). Pokud jde o čipy pro grafické karty GeForce, musíme se před uvedením řady RTX 5000 zatím spokojit s neoficiálnímu informacemi, které se postupně objevují a průběžně o nich píšeme: