NVIDIA GP100: specifikace a detaily nového vlajkového GPU

6.4.2016, Jan Vítek, aktualita

NVIDIA včera večer představila hlavní čip generace Pascal a i když zcela vynechala herní stránku, můžeme se věnovat alespoň té technologické. Podívejme se tedy na to, co nám nové GP100 a jeho deriváty mohou nabídnout.

NVIDIA se na GTC 2016 věnovala Pascalu z profesionálního hlediska a představila nový akcelerátor Tesla. Ten ale ponese stejný základ jako nové herní grafické karty, a sice GPU generace Pascal, konkrétně GP100. Právě z toho budou vycházet i GPU pro herní karty i poloprofesionální modely známé jako TITAN. Nicméně právě o nich zatím ještě není známo nic a NVIDIA zatím tají, kdy mají nové herní akcelerátory vstoupit na trh, zatímco Tesla P100 je plánována již na červen. Jde přitom o velice složitý čip s 15,3 miliardami tranzistorů, takže by se dalo usuzovat, že výroba menších čipů by už mohla a měla také probíhat. Na jejich představení si ale ještě počkáme. GP100 mimochodem zabere plochu 610 mm², pouze o 9 více v porovnání s GM200.

Jak už bylo řečeno v hlavní aktualitě o GP100, NVIDIA zabalila informace o nové generaci do pěti zázraků či divů, abychom se vyhnuli zbožštění nového GPU. Jde o samotnou architekturu Pascal, výrobní proces 16nm FinFET, sestava CoWoS s HBM2, rozhraní NVLink a nové algoritmy pro AI. Co se ale ukrývá v samotném čipu, který může obsahovat až 3840 CUDA jader?

- schema GPU GP100 - klikněte pro zvětšení -

Právě onen počet CUDA jader je zajímavý, neboť GP100 má svých 15,3 miliardy tranzistorů, téměř dvojnásobek čipu GM200 (TITAN X), jenž má 3072 CUDA jader. Pokud by tedy šlo o stejně složitá jádra, musel by jich GP100 mít kolem 6000, takže je zřejmé, že taková nejsou. GP100 se mimochodem skládá také z 240 texturovacích jednotek (TMU) a má 4096bitové rozhraní pro HBM2 uspořádané do osmi 512bitových segmentů. Propustnost 720 GB/s akcelerátoru Tesla P100 napovídá, že GPU nemusí využít všechny a tato Tesla navíc ani nemá nést plný počet CUDA jader, ale 3584.

Klíčová struktura každého GPU Pascal bude mít označení SM (Streaming Multiprocessor), přičemž u GPU Maxwell to jsou SMM (Streaming Maxwell Multiprocessor) a u Kepleru to bylo SMX (opět Streaming Multiprocessor). Jde o hlavní jednotku, která "vytváří, spravuje, plánuje a vykonává paralelní instrukce". Čip Pascal s 3840 CUDA jádry tvoří celkem šest GPC (Graphics Processing Cluster) a každý z nich je tvořen deseti SM, jichž je tak dohromady šedesát. Ty můžete jako celkovou sestavu vidět na schematu nahoře nebo jako jednotlivý SM na následujícím obrázku.

Každý Streaming Multiprocessor architektury Pascal obsahuje 64 FP32 CUDA jader, což je pouze polovina v porovnání s SM generace Maxwell. Interně je pak SM rozdělen na dvě části po 32 CUDA jádrech, které mají některé části samostatné, jako například buffer pro instrukce a jiné sdílené, což je cache L1 nebo čtyři texturovací jednotky. Tato konfigurace je v podstatě stejná jako u GPU Maxwell, přičemž Warp Scheduler nyní umí v každém taktu připravit dvě instrukce. A kvůli tomu, že SM zde mají jen polovinu CUDA jader generace Maxwell, jich samotných je tu dvakrát více, což právě stojí za vyšší efektivitou jednotlivých shaderů (CUDA jader) v Pascalech. NVIDIA tak staví na změnách, jež byly využity již v generaci Maxwell, která přinesla podstatně vyšší výkon v porovnání s Keplery. Celé GP100 obsahuje 14 MB v Register Files a 4 MB Shared Memory, čili dvojnásobek na jedno CUDA jádro, díky čemuž mohou pracovat efektivněji a využívat rychlejší přístup ke svým sdíleným pamětem a registrům.

NVIDIA tak skloubila 16nm výrobní proces se změnami v architektuře, přičemž obojí má přinést vyšší výkon i energetickou efektivitu. Můžeme se tedy těšit na to, co předvedou herní verze Pascalu.

Zdroj: wccftech