NVIDIA GeForce Ampere: co jsme se zatím nedozvěděli o CUDA jádrech

3.9.2020, Jan Vítek, aktualita

Z prezentace nových GeForce Ampere sice můžeme být celkově spokojeni, ale zatím jsme se ani zdaleka nedozvěděli všechny podrobnosti. Zaměstnanci NVIDIE se ale uvolili odpovídat na otázky na Redditu, takže tu máme kupu nových informací.

NVIDIA stále neuvedla žádné podrobnosti o herním výkonu, respektive neukázala konkrétní benchmarky a ani celkové specifikace karet. Nyní ale půjde o spíše dílčí a doplňující dotazy na nové karty. Nejdříve se zaměříme na to hlavní, a sice konfiguraci SM (Streaming Multiprocessor) čipů Ampere.

Dle toho, co vyplynulo na povrch, NVIDIA do poslední chvíle schválně mátla i své AIB partnery a udávala nesprávný počet CUDA jader vzhledem k tomu, co udává dnes. Ten se jednoduše oproti předchozím informacím zdvojnásobil, ale nebylo jasné, jak to celé s jednotkami pro FP32 vůbec je.

Tony Tamasi z NVIDIE uvádí, že zdvojnásobení propustnosti operací v FP32 byl jeden z hlavních designových cílů pro novou generaci a s ohledem na to byly vytvořeny dvě sady jednotek (datapath) pro operace v FP32 a INT32. První je skládá ze 16 CUDA jader pro FP32 schopných provést rovněž 16 operací v FP32 za takt a druhou tvoří 16 CUDA jader pro FP32 a 16 jader pro INT32. Čili v důsledku je zřejmé, že každý Ampere SM dokáže v jednom cyklu provést 4x 32 operací v FP32, anebo 4x 16 v FP32 plus 16 v INT32, viz schema od Hardwareluxx:

Výkon v FP32 na SM se tak může, ale nemusí oproti Turingu zdvojnásobit. Záleží tak na tom, jaká zátěž bude zapotřebí v podobě operací v plovoucí řádové čárce (FFMA, FADD) či celočíselných operací pro adresování dat a podobně. Právě na tom tak bude záviset výsledný výkon a nejvíce se může těžit například při odstraňování šumu z obrazu tvořeného pomocí ray tracingu.

Konečně se tak dozvídáme, co se skrývá za zdvojnásobením počtu CUDA jednotek a že to skutečně není tak jednoduché, jak by se mohlo zdát. NVIDIA také musela posílit ostatní části SM, aby nevznikla úzká hrdla omezující navýšený výkon v FP32. Jde především o zdvojnásobení objemu sdílené paměti v SM a také propustnosti L1 cache ze 64 bajtů na takt (Turing) na 128 bajtů na takt.

V ostatních ohledech je hierarchie v čipu Ampere stejná jako doposud, takže tu máme hlavní GPC (Graphics Processing Clusters), pak TPC (Texture Processing Clusters), zmíněné SM (Streaming Multiprocessors), ROPS (Raster Operators) a potřebné paměťové kontrolery. GPC tu zůstává jako hlavní a dominantní hardwarový blok, v němž sídlí ostatní klíčové jednotky. Každý GPC má tak vlastní rasterizační engine a nově obsahuje dva ROP oddíly po osmi jednotkách.

Během příštích dnů bude zveřejněn také whitepaper architektury Ampere, kde se dočteme ještě další podrobnosti.

Zdroj: Reddit, VideoCardz