Nvidia H100 NVL: 94GB karta pro trénování GPT a jiných LLM

22.3.2023, Milan Šurkala, aktualita

Další novinkou společnosti Nvidia, která byla představena na jarní konferenci GTC, jsou karty Nvidia H100 NVL. Ty jsou určeny pro trénování LLM, jako je např. GPT. Novinka má kapacitu 94 GB na jedné "kartě", která se dodává jako dvojité karty.

Trénování systémů LLM (Large Language Model), jako je např. GPT, vyžaduje velmi výkonný hardware a společnost Nvidia uvádí nové karty, které jsou k tomuto účelu přímo optimalizovány. Jednou takovou novinkou je Nvidia H100 NVL, která je určena do slotu PCIe Gen5. V zásadě jde o dvojitou kartu, kde každá z nich má 6 čipů s pamětí HBM3, přičemž oproti dosavadní praxi, kdy jen 5 z nich bylo aktivních, což vedlo k celkové kapacitě 80 GB, zde jsou aktivní všechny. Přesto ale nedosahuje 96GB kapacity, ale "jen" 94 GB. Celá dvojitá karta tak dosahuje 188 GB paměti. Pokud jde o paměťovou propustnost, ta vzrostla z 2 TB/s (H100 PCIe), resp. 3,35 TB(s (H100 SXM) až na 7,8 TB/s (2×3,9 TB/s).

Podle Nvidie je novinka až 12krát rychlejší v trénování GPT-175B (se 175 miliardami parametrů) proti kartám A100. Např. při trénování Mixture of Experts (MoE) Transformer Switch-XXL se 395 miliardami parametrů a 8000 GPU by A100 potřebovalo 7 dní, zatímco H100 NVL by to ve stejném počtu GPU mělo zabrat jen 20 hodin. Pokud jde o výkon v FP32, zde se dvojitá karta dostává na 134 TFLOPS. Co se týče spotřeby, tak ta je konfigurovatelná na 2×350-400 W. Ke komunikaci je tu použit NVLink s rychlostí 600 GB/s a již zmíněné rozhraní PCIe Gen5 se 128 GB/s.

Zdroj: anandtech.com, nvidia.com