Nvidia představila Blackwell, svou první chipletovou architekturu GPU

Nvidia na GTC March 2024 Keynote představila svou novou architekturu GPU s názvem Blackwell, prozatím v podobě B100 a B200 pro akceleraci výpočtů AI. Kromě mezigeneračního nárůstu výkonu jde ale hlavně o první chipletové GPU od Nvidie.

Reklama

V pondělí Jen-Hsun (Jensen) Huang, zakladatel a CEO Nvidie, představil na GTC March 2024 Keynote novou architekturu GPU s názvem Blackwell. Na začátku zdůraznil, že Blackwell není pouze GPU, ale jde o celou platformu. Při využití v datových centrech je totiž GPU pouze část více komplexního systému, který pochází od Nvidie.

V rámci platformy Blackwell došlo k představení GPU B100 a B200, "superčipu" GB200 (2 GPU Blackwell + 1 CPU Grace), rackového systému GB200 NVL72 a dalších navazujících částí systémů pro využití v datových centrech pro akceleraci výpočtů AI. Na GPU s architekturou Blackwell pro desktopové grafické karty GeForce (RTX 5000) si ještě budeme muset nějakou dobu počkat, jelikož o těch zatím nebyla řeč.

- Jensen Huang ukazuje srovnání GPU Blackwell (vlevo) s GPU Hopper -

Blackwell nejenže představuje další velký mezigenerační nárůst výkonu, ale především jde o první chipletovou architekturu GPU od Nvidie. GPU je totiž složené ze 2 chipletů, které tvoří jeden velký čip s celkovým množstvím 208 miliard tranzistorů (2 × 104 miliard), jenž se také z hlediska softwaru chová jako jeden čip, takže chipletové řešení by nemělo mít negativní vliv na výkon.

- nárůst výkonu v akceleraci výpočtů AI napříč generacemi čipů Nvidie za posledních 8 let, nicméně nejsou srovnávané stejné typy výpočtů, vlevo je obrázek nejnovějšího "superčipu" GB200 -

Výrobním procesem je TSMC 4NP, který by měl obsahovat další vylepšení od Nvidie pro GPU Blackwell, protože už GPU ze současných generací s architekturami Hopper a Ada Lovelace jsou vyráběné Nvidií vylepšeným procesem TSMC 4N. Nepotvrdily se tak dřívější spekulace o využití novějšího 3nm procesu od TSMC. Díky tomu a výraznému zvýšení počtu tranzistorů není překvapením, že se to promítlo na zvýšení spotřeby. TDP u B200 je 1000 W a u B100 se jedná o 700 W, což je stejné jako u H100 (Hopper) a jde o jeden z důvodů, proč by mělo být možné provést ve stávajících systémech snadný upgrade z H100 na B100.

U "superčipu" GB200 sice nebylo uvedeno TDP pro jednotlivé čipy, ale jelikož je použito stejné CPU jako u GH200 (předchozího "superčipu" využívajícího GPU Hopper), u kterého mělo CPU hodnotu TDP 300 W, lze si odvodit, že jedno GPU Blackwell by mělo v GB200 dosahovat 1200 W: (2700-300)/2.

GPU Blackwell: složeno ze dvou chipletů

Počet tranzistorů: 208 miliard (2 × 104)
Výrobní proces: TSMC 4NP
Rychlost rozhraní mezi chiplety: 10 TB/s (5 TB/s v každém směru)
Oba chiplety mají k dispozici celou cache GPU
Udávaný výpočetní výkon pro AI: až 20 petaFLOPS
Paměť: 192 GB HBM3e (8 čipů po 24 GB, každý má 1024bitové rozhraní)
Paměťová propustnost: 8 TB/s (1 TB/s na čip, 8 Gb/s na pin)

"Superčip" GB200

Obsahuje 2 GPU Blackwell (viz výše) a 1 CPU Grace
CPU Grace: 72 jader Neoverse V2 (ARM)
Datová propustnost NVLink chip-to-chip: 900 GB/s
Udávaný výpočetní výkon pro AI: až 40 petaFLOPS (2 × 20 petaFLOPS)
Paměť pro GPU: 384 GB HBM3e (2 × 8 čipů po 24 GB, každý má 1024bitové rozhraní)
Paměť pro CPU: až 480 GB
Paměť k dispozici celkově: až 864 GB

GB200 NVL72: rackový systém

Obsahuje 36 "superčipů" GB200 = 72 GPU Blackwell + 36 CPU Grace
Udávaný výpočetní výkon pro AI: 1,44 exaFLOPS (72 × 20 petaFLOPS)
Rackový systém využívá chlazení pomocí vodního okruhu
V prezentaci byl uveden příklad, že pokud by při využití konkrétního modelu GPT-MoE-1.8T trénování AI s využitím 8000 GPU Hopper trvalo 90 dní při spotřebě energie 15 MW, tak při využití systému Blackwell GB200 NVL72 se zachováním stejné doby 90 dní pro dokončení by bylo potřeba jen 2000 GPU Blackwell a spotřeba by byla jen 4 MW (tzn. stejný čas, ale čtvrtinové množství GPU při téměř čtvrtinové spotřebě). Nelze z toho dělat obecný závěr, ale pokud k takto velkým nárůstům účinnosti může v některých případech docházet, je to velký posun kupředu a společnosti si rychle spočítají, kolik by díky tomu mohly ušetřit.

Pro srovnání můžeme uvést, že GPU s architekturou Hopper, což byl dosud nejvýkonnější čip Nvidie pro akceleraci výpočtů AI, obsahuje 80 miliard tranzistorů a výrobním procesem je TSMC 4N.

V prezentaci bylo uvedeno, že v akceleraci výpočtů AI má Blackwell 5násobný výkon v porovnání s H100 (Hopper), jenže je třeba dodat, že takového nárůstu bylo dosaženo při výpočtech FP4, které u H100 nelze provádět. Při srovnání stejného způsobu výpočtů má Blackwell o něco více než 2násobnou rychlost v porovnání s H100. Přičemž u výpočtů FP64 má Blackwell nižší udávaný výkon než H100, takže je evidentní hlavní orientace Nvidie právě na akceleraci výpočtů AI namísto na vědecké výpočty, což je logické vzhledem k aktuální obrovské poptávce právě po co nejrychlejších čipech pro trénování AI.

Hopper - tak šel čas

GPU H100 (s přesným označením "NVIDIA H100 Tensor Core GPU", přičemž samotný čip má označení GH100) v případě SXM5 verze disponuje 80 GB paměti HBM3 s propustností 3,34 TB/s. Představené bylo 22. března 2022 na GTC 2022 Spring Keynote společně s plánem jej později nabídnout i v konfiguraci, v které by došlo ke spojení s CPU Grace, aby vznikl "superčip" Grace Hopper. Ten byl představený 28. května 2023 s označením GH200, přičemž každé GPU H100 má v jeho případě k dispozici 96 GB paměti HBM3.

Jen o 2 měsíce později byla 8. srpna 2023 oznámena i volitelná vylepšená verze GH200, u které byla paměť typu HBM3 nahrazena za rychlejší HBM3e a navíc ve větší kapacitě 141 GB na jedno GPU H100 (fyzicky je sice přítomných 144 GB, ale využívat lze jen 141 GB). Je tak možné si vybrat mezi verzí s 96 GB HBM3 s propustností 4 TB/s a verzí se 141 GB HBM3e s propustností 4,9 TB/s.

A 13. listopadu 2023 bylo v rámci platformy HGXoznámeno GPU H200, které taky získalo rychlejší paměť typu HBM3e s propustností 4,8 TB/s a ve větší kapacitě 141 GB.

Mezitím byla 20. září 2022 na GTC September 2022 Keynote představena architektura GPU s názvem Ada Lovelace pro použití v grafických kartách GeForce RTX 4000, Nvidia RTX pro pracovní stanice (jež byly v dřívějších generacích označované jako Quadro) a A40 nebo A16 pro datová centra.

Srovnání parametrů

Na závěr se můžeme podívat na několik srovnání jednotlivých GPU:

	GB200	B200	B100
Konfigurace	2 × GPU B200, 1 × CPU Grace	GPU Blackwell	GPU Blackwell
FP4 Tensor Dense/Sparse (petaFLOPS)	20 / 40	9 / 18	7 / 10
FP6/FP8 Tensor Dense/Sparse (petaFLOPS)	10 / 20	4,5 / 9	3,5 / 7
INT8 Tensor Dense/Sparse (petaOPS)	10 / 20	4,5 / 9	3,5 / 7
FP16/BF16 Tensor Dense/Sparse (petaFLOPS)	5 / 10	2,25 / 4,5	1,8 / 3,5
TF32 Tensor Dense/Sparse (petaFLOPS)	2,5 / 5	1,12 / 2,25	0,9 / 1,8
FP64 Tensor Dense (teraFLOPS)	90	40	30
Paměť	384 GB (2 × 192 GB)	192 GB	192 GB
Propustnost	16 TB/s	8 TB/s	8 TB/s
Propustnost NVLink	2 × 1,8 TB/s	1,8 TB/s	1,8 TB/s
TDP	Až 2700 W	1000 W	700 W

Zdroj dat v tabulce: Tom's Hardware

	B200	H100	A100 (80 GB)
Architektura	Blackwell	Hopper	Ampere
GPU	"Blackwell GPU"	GH100 (814 mm2)	GA100 (826 mm2)
Počet tranzistorů	208 miliard (2 × 104)	80 miliard	54,2 miliard
Výrobní proces	TSMC 4NP	TSMC 4N	TSMC 7N
Formát	SXM	SXM5	SXM4
Počet jader FP32 CUDA	?	16.896	6912
Počet jader Tensor	?	528	432
Boost frekvence	?	1,98 GHz	1.41 GHz
Frekvence paměti	8 Gbps HBM3e	5.23 Gbps HBM3	3,2 Gbps HBM2e
Šířka paměťové sběrnice	2 × 4096bit	5120bit	5120bit
Paměťová propustnost	8 TB/sec	3,35 TB/sec	2 TB/sec
Velikost VRAM	192 GB (2 × 96 GB)	80 GB	80 GB
FP32 Vector (teraFLOPS)	?	67	19,5
FP64 Vector (teraFLOPS)	?	34	9,7 (1/2 FP32)
FP4 Tensor (petaFLOPS)	9	-	-
INT8/FP8 Tensor (petaOPS)	4,5	1,98	0,624
FP16 Tensor (petaFLOPS)	2,25	0,99	0,312
TF32 Tensor (petaFLOPS)	1,1	0,495	0,156
FP64 Tensor (teraFLOPS)	40	67	19,5
Propojení	NVLink 5 ? linek (1,8 TB/sec)	NVLink 4 18 linek (0,9 TB/sec)	NVLink 3 12 linek (0,6 TB/sec)
TDP	1000 W	700 W	400 W

Zdroj dat v tabulce: Anandtech

Zde se můžete podívat na celý záznam prezentace s představením architektury Blackwell:

Nová architektura byla pojmenována po americkém statistikovi a matematikovi Davidu Haroldovi Blackwellovi (1919 - 2010). Pokud jde o čipy pro grafické karty GeForce, musíme se před uvedením řady RTX 5000 zatím spokojit s neoficiálnímu informacemi, které se postupně objevují a průběžně o nich píšeme: