NVIDIA Ampere a CUDA jádra: dvojnásobek, nebo grafický "hyperthreading"?

2.9.2020, Jan Vítek, aktualita

Dosavadní zprávy zněly jasně, herní Ampere budou mít maximálně 5248 CUDA jader a my jsme dle toho očekávali i příslušný výkonnostní nárůst. NVIDIA nám však vyrazila dech a ohlásila i RTX 3090 s 10496 CUDA jádry.

Když se podíváme na specifikace nových karet, je zřejmé, že to je lepší, než jsme si mohli přát. NVIDIA překvapila především počtem CUDA jader, který dalece přesahuje vše, co nám dosud nabízela a tomu odpovídá i výkon. I pouhá RTX 3070 tak nabízí přes 20 TFLOPS, o čemž se nezdálo ani kartě TITAN RTX s jejími 16,3 TFLOPS. Nicméně můžeme skutečně mluvit o tom, že RTX 3070 má 5888 CUDA jader, nebo je to trošku jinak?

Model	Konfigurace (CUDA:TMU)	Takt GPU	Paměti	Sběrnice	Propustnost	Výkon FP32	TDP	Cena	Dostupnost
GeForce RTX 3070	5888:368	1500 - 1730 MHz	8 GB GDDR6	256bit	512 GB/s	až 20,4 TFLOPS	220 W	499 USD	říjen 2020
GeForce RTX 3080	8704:544	1440 - 1710 MHz	10 GB GDDR6X	320bit	760 GB/s	až 29,8 TFLOPS	320 W	699 USD	17. září 2020
GeForce RTX 3090	10496:656	1400 - 1700 MHz	24 GB GDDR6x	384bit	936 GB/s	až 35,7 TFLOPS	350 W	1499 USD	24 září 2020

Napovědět nám mohou následující dva snímky z včerejší prezentace. První ukazuje nalevo shadery generace Turing a druhý pak nové shadery či CUDA jádra generace Ampere.

Z jednoduchého obrázku je patrné, že ve skutečnosti asi nepůjde o dvojnásobný počet CUDA jader, o němž mluví už veškeré různě dostupné specifikace. Půjde spíše o takový počet, o kterém mluvily dosavadní fámy, jenomže tato jádra budou schopna fungovat jako dvě. Ostatně česká tisková zpráva od NVIDIE mluví o "dvojnásobné FP32 propustnosti".

I ze zobrazených náčrtků je patrné, že nová CUDA jádra budou sdílet některé své prostředky (scheduler či registry?) a jiné (hlavní pipeline?) budou mít zdvojené, a nás tak může napadnout, do jaké míry se tato architektura bude podobat technologii hyperthreading od Intelu. Nebo, a to je nejspíše lepší přirovnání, by mohlo jít o obdobu architektury Bulldozer od AMD a jejích dvoujádrových modulů, které taky obsahovaly samostatné a sdílené části.

Čili ve výsledku asi budeme mluvit spíše o 5888, 8704 a 10496 efektivních CUDA jádrech, pokud budeme chtít být přesní. Nicméně běžnému uživateli může být stejně jedno, jakým způsobem toho NVIDIA docílila, pokud bude skutečně zaručeno, že CUDA v Ampere se skutečně budou chovat tak, jak slibují specifikace a RTX 3080 dosáhne až téměř na 30 TFLOPS výkonu.

Samostatnou kapitolou je pak výkon v ray tracingu s využitím DLSS, kde NVIDA už slibuje schopnost vykreslovat kompletně ray tracované scény bez využití rasterizace. Na to se ale zaměříme někdy příště.