reklama
Aktuality  |  Články  |  Recenze
Doporučení  |  Diskuze
Grafické karty a hry  |  Procesory
Storage a RAM
Monitory  |  Ostatní
Akumulátory, EV
Robotika, AI
Průzkum vesmíru
Digimanie  |  TV Freak  |  Svět mobilně

Architektura A100: megačip s 8192 CUDA jádry

14.5.2020, Jan Vítek, článek
Architektura A100: megačip s 8192 CUDA jádry
NVIDIA dnes zveřejnila na svém blogu také podrobné informace o tom, z čeho se skládá nový čip A100 generace Ampere, který je vytvořen 7nm procesem v TSMC a obsahuje na 54 miliard tranzistorů. 

Dvě verze Amperu

 
Samozřejmě se nepočítá s tím, že by A100 byly běžně vyráběny bezchybně, takže ačkoliv skutečně obsahují 8192 CUDA jader, jak je uvedeno v titulku, ne všechna musí být aktivní. Vysoce paralelizovaná architektura má onu obvyklou výhodu v tom, že část čipu vyrobená s chybou se může vypnout (pokud nejde o problém v jinak nenahraditelné oblasti) a čip se může dále používat, což ostatně dnes platí i pro procesory, i když v omezené míře. 
 
Ve skutečnosti je něco takového už zcela nutné, a to zvláště u čipu jako A100, v jehož případě se všech 54 miliard tranzistorů těžko vyrobí zcela bezchybně. Z celkového počtu 8192 FP32 CUDA jader ale je co ubírat a NVIDIA může na hůře vyrobených A100 stavět i jiné produkty než plnohodnotné Tesly. 
 
konfigurace plnohodnotného čipu Ampere A100 - klikněte pro zvětšení -
 
Co se týče plné verze GA100, ta se skládá z celkem osmi GPC (GPU Processing Cluster), z nichž každý zahrnuje svých osm TPC (Texture Processing Cluster), v každém TPC jsou dva SM (Streaming Multiprocessor) a těch je tu tak 128 v celém GPU. V jednom SM máme celkem 64 klasických CUDA jader pro FP32, takže jejich celkový počet se vyšplhal na 8192 a celé GPU má také 512 jader Tensor 3. generace (4 na SM). Paměťové kontrolery pro HBM2 jsou rozděleny na dvanáct 512bitových jednotek, čili dohromady to dělá očekávaných 6144 bitů pro 48 GB paměti.
 
Ovšem implementace A100 Tensor Core bude slabší a nabídne "pouze" 108 SM po 64 CUDA jádrech v celkem 7 GPC, čili 6912 CUDA jader na celé GPU, takže cca 84 procent z celkové nabídky čipu. Tomu odpovídá i výbava 432 jader Tensor a slabší bude také paměťový subsystém s pěti pouzdry HBM2, a tedy odpovídajícími deseti 512bitovými segmenty kontroleru pro 40 GB paměti. 
 
Čili prostě a jednoduše, GA100 bude plnotučný Ampere s 8192 CUDA jádry a A100 osekaná verze se 6912 CUDA jádry. 
 
jednotka SM generace Ampere
 
Co se týče nových jader Tensor, pak ty se od předchozích verzí v čipech Volta a Turing zásadně liší. Starší Tensor zvládají celkem 64 operací v FP16/FP32 (mixed precision FMA - Fused Multiply-Add) za sekundu. Každé Tensor třetí generace v Ampere zvládne 256 FP16/FP32 FMA operací za takt a se čtyřmi Tensor jádry na SM to znamená dvojnásobný výkon na SM oproti generacím Volta a Turing. 
 
Nová jádra Tensor zvládnou zpracovávat všechny typy dat včetně FP16, BF16, TF32, FP64, INT8 a INT4, mají novou funkci sparsity pro využití "řídkosti" v hlubokých neuronových sítích pro zdvojnásobení výkonu ve standardních Tensor Core operacích.
 
 

Výkon a specifikace

 
Formát V100 A100 A100 Sparsity Nárůst výkonu A100 Nárůst výkonu A100 se Sparsity
A100 FP16 vs. V100 FP16  31,4 TFLOPS 78 TFLOPS N/A 2,5x N/A
A100 FP16 TC vs. V100 FP16 TC 125 TFLOPS 312 TFLOPS 624 TFLOPS 2,5x 5x
A100 BF16 TC vs.V100 FP16 TC 125 TFLOPS 312 TFLOPS 624 TFLOPS 2,5x 5x
A100 FP32 vs. V100 FP32 15,7 TFLOPS 19.5 TFLOPS N/A 1,25x N/A
A100 TF32 TC vs. V100 FP32  15,7 TFLOPS 156 TFLOPS 312 TFLOPS 10x 20x
A100 FP64 vs. V100 FP64 7,8 TFLOPS 9,7 TFLOPS N/A 1,25x N/A
A100 FP64 TC vs. V100 FP64 7,8 TFLOPS 19,5 TFLOPS N/A 2,5x N/A
A100 INT8 TC vs. V100 INT8 62 TOPS 624 TOPS 1248 TOPS 10x 20x
A100 INT4 TC N/A 1248 TOPS 2496 TOPS N/A N/A
A100 Binary TC N/A 4992 TOPS N/A N/A N/A
 
Dále se ještě podíváme na specifikace verze A100 v porovnání s Teslou V100 i P100. 
 
Data Center GPU NVIDIA Tesla P100 NVIDIA Tesla V100 NVIDIA A100
GPU kódový název GP100 GV100 GA100
GPU architektura NVIDIA Pascal NVIDIA Volta NVIDIA Ampere
GPU formát  SXM SXM2 SXM4
SM 56 80 108
TPC 28 40 54
FP32 Cores / SM 64 64 64
FP32 Cores / GPU 3584 5120 6912
FP64 Cores / SM 32 32 32
FP64 Cores / GPU 1792 2560 3456
INT32 Cores / SM - 64 64
INT32 Cores / GPU - 5120 6912
Tensor Cores / SM - 8 42
Tensor Cores / GPU - 640 432
GPU turbo 1480 MHz 1530 MHz 1410 MHz
Texture Unit 224 320 432
Paměťové rozhraní 4096-bit HBM2 4096-bit HBM2 5120-bit HBM2
Kapacita pamětí 16 GB 32 GB / 16 GB 40 GB
Takt pamětí 703 MHz DDR 877,5 MHz DDR 1215 MHz DDR
Celková propustnost 720 GB/sec 900 GB/sec 1,6 TB/sec
L2 Cache 4096 KB 6144 KB 40960 KB
Shared Memory / SM 64 KB až 96 KB až 164  KB
Register File  / SM 256 KB 256 KB 256 KB
Register File / GPU 14336 KB 20480 KB 27648 KB
TDP 300 W 300 W 400 W
Počet tranzistorů 15,3 mld 21,1 mld 54,2 mld
Velikost GPU 610 mm² 815 mm² 826 mm²
Výrobní proces (vše TSMC) 16 nm FinFET+ 12 nm FFN 7 nm N7
 
Důležité údaje, které se ještě nikde neukázaly, jsou o taktu GPU, spotřebě a velikosti GPU. Takt zůstal víceméně na stejné úrovni, ale přesto je nižší než v případě Pascalu i Volty. Dalo by se tak očekávat, že ani herní Ampere nebudou zvyšovat takty oproti Turingu, ale uvidíme. 
 
Příliš ne nezvýšila ani rozloha čipu, což je výtečná zpráva, neboť na téměř stejnou plochu se NVIDII a TSMC podařilo nacpat více než 2x více tranzistorů. Pokud by tedy i herní Ampere měly mít podobně velké čipy, tak by šlo očekávat skutečně velký pokrok. A co se týče TDP, to šlo nahoru o třetinu na 400 W, čemuž se skutečně vzhledem ke specifikacím nelze divit. 

 

Architektura MIG

 
Nakonec nebudeme mluvit o ruském leteckém inženýrství, ale o CSP Multi-Instance GPU, čili MIG v podání NVIDIE. Jde o již zmíněnou schopnost nabídnout jedno GPU A100 celkem sedmi uživatelům s tím, že každý z nich může očekávat výkon srovnatelný s GPU V100. 
 
 
Jde tak pochopitelně o případ, kdy někdo skutečně nepotřebuje výkon celého A100, takže MIG poslouží pro účely efektivity v případě menší zátěže. Takové GPU instance generace Volta v rámci Multi-User Node ještě nenabízela a je zřejmé, že NVIDIA musela vyřešit i to, aby data jednotlivých instancí byla zcela oddělena, přičemž NVIDIA to dle vlastních slov nedělá kvůli tomu, aby nevytvořila GPU verzi exploitů Spectre a Meltdown.
 
Jde jí především o kvalitu služeb, čili aby vyhrazená část GPU sloužila skutečně jen jednomu uživateli a nestalo se, že by sdílené prostředky GPU někdo zasedl jako žába na prameni. Provozovatel tak bude moci vždy nabídnout jasně definovaný výkon s datovou propustností a latencemi, jakkoliv si další uživatelé stejného GPU zahltí či nezahltí své vlastní instance. Čili každá instance má své vlastní oddělené a izolované datové cesty, L2 cache, paměťové kontrolery, atd.
 
Zde si pak můžete přečíst o AI inovacích na A100 a podívat se také na nového průvodce pro programování pro CUDA, který už má brát v potaz nově představenou verzi CUDA 11. My uvidíme, zda z onoho kvanta dnes zveřejněných informací nevykrystalizují také nějaké zajímavosti o tom, jaká by mohla být příští generace GeForce. Spekulací bude jistě dost.  
 
Zdroj: NVIDIA 


reklama