
Jak už bylo řečeno v hlavní aktualitě o GP100, NVIDIA zabalila informace o nové generaci do pěti zázraků či divů, abychom se vyhnuli zbožštění nového GPU. Jde o samotnou architekturu Pascal, výrobní proces 16nm FinFET, sestava CoWoS s HBM2, rozhraní NVLink a nové algoritmy pro AI. Co se ale ukrývá v samotném čipu, který může obsahovat až 3840 CUDA jader?
Právě onen počet CUDA jader je zajímavý, neboť GP100 má svých 15,3 miliardy tranzistorů, téměř dvojnásobek čipu GM200 (TITAN X), jenž má 3072 CUDA jader. Pokud by tedy šlo o stejně složitá jádra, musel by jich GP100 mít kolem 6000, takže je zřejmé, že taková nejsou. GP100 se mimochodem skládá také z 240 texturovacích jednotek (TMU) a má 4096bitové rozhraní pro HBM2 uspořádané do osmi 512bitových segmentů. Propustnost 720 GB/s akcelerátoru Tesla P100 napovídá, že GPU nemusí využít všechny a tato Tesla navíc ani nemá nést plný počet CUDA jader, ale 3584.
Klíčová struktura každého GPU Pascal bude mít označení SM (Streaming Multiprocessor), přičemž u GPU Maxwell to jsou SMM (Streaming Maxwell Multiprocessor) a u Kepleru to bylo SMX (opět Streaming Multiprocessor). Jde o hlavní jednotku, která "vytváří, spravuje, plánuje a vykonává paralelní instrukce". Čip Pascal s 3840 CUDA jádry tvoří celkem šest GPC (Graphics Processing Cluster) a každý z nich je tvořen deseti SM, jichž je tak dohromady šedesát. Ty můžete jako celkovou sestavu vidět na schematu nahoře nebo jako jednotlivý SM na následujícím obrázku.

Každý Streaming Multiprocessor architektury Pascal obsahuje 64 FP32 CUDA jader, což je pouze polovina v porovnání s SM generace Maxwell. Interně je pak SM rozdělen na dvě části po 32 CUDA jádrech, které mají některé části samostatné, jako například buffer pro instrukce a jiné sdílené, což je cache L1 nebo čtyři texturovací jednotky. Tato konfigurace je v podstatě stejná jako u GPU Maxwell, přičemž Warp Scheduler nyní umí v každém taktu připravit dvě instrukce. A kvůli tomu, že SM zde mají jen polovinu CUDA jader generace Maxwell, jich samotných je tu dvakrát více, což právě stojí za vyšší efektivitou jednotlivých shaderů (CUDA jader) v Pascalech. NVIDIA tak staví na změnách, jež byly využity již v generaci Maxwell, která přinesla podstatně vyšší výkon v porovnání s Keplery. Celé GP100 obsahuje 14 MB v Register Files a 4 MB Shared Memory, čili dvojnásobek na jedno CUDA jádro, díky čemuž mohou pracovat efektivněji a využívat rychlejší přístup ke svým sdíleným pamětem a registrům.
NVIDIA tak skloubila 16nm výrobní proces se změnami v architektuře, přičemž obojí má přinést vyšší výkon i energetickou efektivitu. Můžeme se tedy těšit na to, co předvedou herní verze Pascalu.
Zdroj: wccftech