NVIDIA stále neuvedla žádné podrobnosti o herním výkonu, respektive neukázala konkrétní benchmarky a ani celkové specifikace karet. Nyní ale půjde o spíše dílčí a doplňující dotazy na nové karty. Nejdříve se zaměříme na to hlavní, a sice konfiguraci SM (Streaming Multiprocessor) čipů Ampere.

Dle toho, co vyplynulo na povrch, NVIDIA do poslední chvíle schválně mátla i své AIB partnery a udávala nesprávný počet CUDA jader vzhledem k tomu, co udává dnes. Ten se jednoduše oproti předchozím informacím zdvojnásobil, ale nebylo jasné, jak to celé s jednotkami pro FP32 vůbec je

Tony Tamasi z NVIDIE uvádí, že zdvojnásobení propustnosti operací v FP32 byl jeden z hlavních designových cílů pro novou generaci a s ohledem na to byly vytvořeny dvě sady jednotek (datapath) pro operace v FP32 a INT32. První je skládá ze 16 CUDA jader pro FP32 schopných provést rovněž 16 operací v FP32 za takt a druhou tvoří 16 CUDA jader pro FP32 a 16 jader pro INT32. Čili v důsledku je zřejmé, že každý Ampere SM dokáže v jednom cyklu provést 4x 32 operací v FP32, anebo 4x 16 v FP32 plus 16 v INT32, viz schema od Hardwareluxx

Výkon v FP32 na SM se tak může, ale nemusí oproti Turingu zdvojnásobit. Záleží tak na tom, jaká zátěž bude zapotřebí v podobě operací v plovoucí řádové čárce (FFMA, FADD) či celočíselných operací pro adresování dat a podobně. Právě na tom tak bude záviset výsledný výkon a nejvíce se může těžit například při odstraňování šumu z obrazu tvořeného pomocí ray tracingu.

Konečně se tak dozvídáme, co se skrývá za zdvojnásobením počtu CUDA jednotek a že to skutečně není tak jednoduché, jak by se mohlo zdát. NVIDIA také musela posílit ostatní části SM, aby nevznikla úzká hrdla omezující navýšený výkon v FP32. Jde především o zdvojnásobení objemu sdílené paměti v SM a také propustnosti L1 cache ze 64 bajtů na takt (Turing) na 128 bajtů na takt.

V ostatních ohledech je hierarchie v čipu Ampere stejná jako doposud, takže tu máme hlavní GPC (Graphics Processing Clusters), pak TPC (Texture Processing Clusters), zmíněné SM (Streaming Multiprocessors), ROPS (Raster Operators) a potřebné paměťové kontrolery. GPC tu zůstává jako hlavní a dominantní hardwarový blok, v němž sídlí ostatní klíčové jednotky. Každý GPC má tak vlastní rasterizační engine a nově obsahuje dva ROP oddíly po osmi jednotkách.

Během příštích dnů bude zveřejněn také whitepaper architektury Ampere, kde se dočteme ještě další podrobnosti.

