Nvidia Tesla K10/20: světový rekord na krku
2.7.2012, Petr Štefek, technologie
Nvidia pustila do světa informace o chystaných akcelerátorech produktové řady Tesla. Krom známého jádra GK104 se uvedl také monstrózní čip GK110 se 7 miliardami tranzistorů a vynikajícím výkonem pro GPGPU.
Kapitoly článku:
- Nvidia Tesla K10 – lehká váha
- Nvidia Tesla K20 - vše, na co jsme čekali
Krom „levné“ Tesla K10 má Nvidia v plánu také dražší a výkonnější variantu K20, která by měla být tím, co jsme asi všichni čekali od níže postavené K10. Na trh má přijít koncem tohoto roku a bude využívat jádro GK110, které je ovšem podle všech indicií zatím pouze ve fázi vývoje. Informací je nyní poskrovnu a jediné, co zatím s jistotou víme, že bude mít 2880 stream procesorů (CUDA Cores) a integrovat bude 7,1 mld. tranzistorů, což z něj dělá nejkomplexnější čip na světě. Vyrábět se bude samozřejmě 28nm procesem. Na rozdíl od GK104 bude mít tato těžká váha GK110 solidní výkon při double-precision výpočtech a bude disponovat ECC na úrovni cache jádra (GK104 umí pouze ECC u pamětí).
Die shot GK110 (28nm a 7,1 mld. tranzistorů)
Výkonové zařazení lze v současnosti těžko odhadovat, ale teoreticky by mohlo být GK110 při FP64 výpočtech být výkonnější oproti staršímu GF110 až čtyřikrát. Ku prospěchu bude rovněž 384bitová sběrnice. Prozatím ale nevíme, zda a kolik bude mít finální Tesla K20 paměti a jaké čipy budou využity. Pro jádro jakým je GK110 může být využití GDDR5 limitující a CEO Nvidie okolo pamětí docela dost mlží, takže to může znamenat, že buď ještě Nvidia neví jaké paměti nasadí a nebo chystá nasazení pamětí další generace (např. XDR). Podle prvních střípků informací je možné, že finální akcelerátory K20 nebudou mít GF110 v plném „palbě“ a část CUDA Cores bude deaktivována (např. 2496 aktivních CUDA Cores) . O finálních frekvencích můžeme prozatím jenom polemizovat, ale zřejmě se bude vzhledem k počtu tranzistorů jednat spíše o frekvence pod 1 GHz.
GK110 disponuje 15 SMX, které jsou podobné jako ty, které můžeme najít u GK104, ale několik rozdílů zde najdeme. Na rozdíl od GK104 budou mít k dispozici 64 jednotek pro double-precision výpočty (to je značný rozdíl oproti 8 integrovaným v SMX GK104). Ruku v ruce s těmito změnami jde navýšení velikosti L2 chache, která je třikrát větší (1,5 MB) než u jádra GK104. Celkový výsledný výkon v případě takto komplexního čipu s tolika SMX (15) respektive CUDA Cores bude velmi závislý na tom, jak efektivně Nvidia zařídí paralelní vykonávání instrukcí v rámci zpracování vlákna (ILP – Instruction Level Parallelism) a samozřejmě efektivitu o úroveň výše v případě samotných vláken (TLP – Thread Level Parallelism). Máme zde jasný odkaz na starší jádro GF114, které některé své vlastnosti obtisklo do nové architektury Kepler a GK104.
Schéma čipu GK110 (15 SMX - 2880 CUDA Cores)
Nvidia se ale nepochlubila pouze a jen papírovými vlastnostmi připravovaného „titánského“ jádra GK110 a představila také dvě nové klíčové technologie tohoto jádra. Budou typické pouze pro tento připravovaný čip. Pro dosažení maximálního využití každého SMX je zde Hyper-Q, které podle slov Nvidie dokáže efektivně řídit vytížení SMX různými úlohami (až 32 najednou) tak, aby se nestalo to, že část SXM bude zahálet tam, kde by již mohly pracovat na další úloze. To je již letitý problém paralelních výpočetních architektur jako jsou GPU, kde je výsledný výkon životně závislý na schopnosti plánovat zpracování jednotlivých úloh. Za zcela přelomovou vlastnost to ale označit příliš nelze, spíše se jedná o způsob nebo alternativu jak bude Nvidia přistupovat k optimálnímu vytížení této architektury GPU.
Druhou zajímavou novinkou je Dynamic Parallelism, která skrývá funkčnost dynamické tvorby dalších threadů v rámci zpracovávání kódu. Ve starších architekturách jako je Fermi do toho muselo zasáhnout také CPU. V případě Kepleru GK110 už nemusí, což může znamenat v určitých ohledech výhodu pro specifické GPGPU aplikace. Radost budou mít především vývojáři GPGPU aplikací. Bližší podrobnosti o celé architektuře můžeme od Nvidie očekávat snad ve 3. kvartále tohoto roku. Velmi zajímavé bude sledovat, jaké aplikace se budou na tomto super výkonném jádru stavět a zda se konečně dočkáme nějakého superpočítače založeného na Tesla K20, který se postaví do čela výkonnostního žebříčku. Prozatím je na 6. místě Jaguar s kombinací AMD Opteron a Nvidia Tesla 2090.
Jestli se těšíte, že by na základech monstrózního GPU GK110 mohla vzniknout nějaká super výkonná grafická karta, tak si nechte zajít chuť, protože tento čip je příliš drahý na to, aby se dal prodávat na trhu se spotřebním zbožím. Samozřejmě, že každé zboží má svého kupce, a tak je pravděpodobné, že Nvidia by „několik“ kusů prodala i v případě, že by takovýto grafický akcelerátor stál 50 tisíc korun. Bylo by to otázkou prestiže. Nicméně myslím, že se ničeho podobného nedočkáme, neboť tento čip je navržen opravdu s ohledem na vysoký výkon v double-precision výpočtech, kde si jeho levnější kolega pod označením GK104 ani neškrtne.
Další informace vám budeme průběžně dodávat.
Die shot GK110 (28nm a 7,1 mld. tranzistorů)
Výkonové zařazení lze v současnosti těžko odhadovat, ale teoreticky by mohlo být GK110 při FP64 výpočtech být výkonnější oproti staršímu GF110 až čtyřikrát. Ku prospěchu bude rovněž 384bitová sběrnice. Prozatím ale nevíme, zda a kolik bude mít finální Tesla K20 paměti a jaké čipy budou využity. Pro jádro jakým je GK110 může být využití GDDR5 limitující a CEO Nvidie okolo pamětí docela dost mlží, takže to může znamenat, že buď ještě Nvidia neví jaké paměti nasadí a nebo chystá nasazení pamětí další generace (např. XDR). Podle prvních střípků informací je možné, že finální akcelerátory K20 nebudou mít GF110 v plném „palbě“ a část CUDA Cores bude deaktivována (např. 2496 aktivních CUDA Cores) . O finálních frekvencích můžeme prozatím jenom polemizovat, ale zřejmě se bude vzhledem k počtu tranzistorů jednat spíše o frekvence pod 1 GHz.
GK110 disponuje 15 SMX, které jsou podobné jako ty, které můžeme najít u GK104, ale několik rozdílů zde najdeme. Na rozdíl od GK104 budou mít k dispozici 64 jednotek pro double-precision výpočty (to je značný rozdíl oproti 8 integrovaným v SMX GK104). Ruku v ruce s těmito změnami jde navýšení velikosti L2 chache, která je třikrát větší (1,5 MB) než u jádra GK104. Celkový výsledný výkon v případě takto komplexního čipu s tolika SMX (15) respektive CUDA Cores bude velmi závislý na tom, jak efektivně Nvidia zařídí paralelní vykonávání instrukcí v rámci zpracování vlákna (ILP – Instruction Level Parallelism) a samozřejmě efektivitu o úroveň výše v případě samotných vláken (TLP – Thread Level Parallelism). Máme zde jasný odkaz na starší jádro GF114, které některé své vlastnosti obtisklo do nové architektury Kepler a GK104.
Schéma čipu GK110 (15 SMX - 2880 CUDA Cores)
Nvidia se ale nepochlubila pouze a jen papírovými vlastnostmi připravovaného „titánského“ jádra GK110 a představila také dvě nové klíčové technologie tohoto jádra. Budou typické pouze pro tento připravovaný čip. Pro dosažení maximálního využití každého SMX je zde Hyper-Q, které podle slov Nvidie dokáže efektivně řídit vytížení SMX různými úlohami (až 32 najednou) tak, aby se nestalo to, že část SXM bude zahálet tam, kde by již mohly pracovat na další úloze. To je již letitý problém paralelních výpočetních architektur jako jsou GPU, kde je výsledný výkon životně závislý na schopnosti plánovat zpracování jednotlivých úloh. Za zcela přelomovou vlastnost to ale označit příliš nelze, spíše se jedná o způsob nebo alternativu jak bude Nvidia přistupovat k optimálnímu vytížení této architektury GPU.
Druhou zajímavou novinkou je Dynamic Parallelism, která skrývá funkčnost dynamické tvorby dalších threadů v rámci zpracovávání kódu. Ve starších architekturách jako je Fermi do toho muselo zasáhnout také CPU. V případě Kepleru GK110 už nemusí, což může znamenat v určitých ohledech výhodu pro specifické GPGPU aplikace. Radost budou mít především vývojáři GPGPU aplikací. Bližší podrobnosti o celé architektuře můžeme od Nvidie očekávat snad ve 3. kvartále tohoto roku. Velmi zajímavé bude sledovat, jaké aplikace se budou na tomto super výkonném jádru stavět a zda se konečně dočkáme nějakého superpočítače založeného na Tesla K20, který se postaví do čela výkonnostního žebříčku. Prozatím je na 6. místě Jaguar s kombinací AMD Opteron a Nvidia Tesla 2090.
Jestli se těšíte, že by na základech monstrózního GPU GK110 mohla vzniknout nějaká super výkonná grafická karta, tak si nechte zajít chuť, protože tento čip je příliš drahý na to, aby se dal prodávat na trhu se spotřebním zbožím. Samozřejmě, že každé zboží má svého kupce, a tak je pravděpodobné, že Nvidia by „několik“ kusů prodala i v případě, že by takovýto grafický akcelerátor stál 50 tisíc korun. Bylo by to otázkou prestiže. Nicméně myslím, že se ničeho podobného nedočkáme, neboť tento čip je navržen opravdu s ohledem na vysoký výkon v double-precision výpočtech, kde si jeho levnější kolega pod označením GK104 ani neškrtne.
Další informace vám budeme průběžně dodávat.