Nvidia Kepler: jaké jsou geny GeForce GTX 680?

28.3.2012, Petr Štefek, technologie

V dnešním rozboru se podíváme na to, jaká je nová architektura Nvidie pod označením Kepler a zda má ambice úplně nahradit starší Fermi, nebo zda se ubírá svým vlastním směrem. Zbrusu nové GPU GK104 najdeme na GeForce GTX 680.

Kapitoly článku:

Nvidia Kepler: jaké jsou geny GeForce GTX 680?
Architektura GK104 - pohled pod pokličku
Nové technologie a funkce - GPU Boost, Active V-sync a další

Každý, koho zajímají grafické karty, si asi v posledních týdnech kladl otázku, jak bude vypadat zbrusu nová architektura Kepler společnosti Nvidia. Fermi je architektura stará už 2 roky, ale svou práci odvedla zatraceně dobře, což ilustruje asi půl druhého roku nadvlády GeForce GTX 580, kterou sesadil až Radeon HD 7970. Fermi si vedlo také dobře v GPGPU výpočtech a dobře se etablovala Nvidia Tesla coby využití GPU pro HPC segment nebo profesionální grafiky Quadro, které ve všech významných aplikací předstihly konkurenční řešení AMD/ATI. Nyní je tedy čas pro novou architekturu, ale jak si později vysvětlíme, je tato architektura spíše jakousi „herní“ evolucí Fermi a pro HPC se příliš nehodí.

Pokud bychom chtěli jmenovat nějaké zásadní nedostatky předchozí architektury Fermi, pak bychom mohli jmenovat především její velikost při 40nm procesu a s tím spojenou vysokou spotřebu. Ta překonávala konkurenční Radeony nehezkým způsobem. Nvidia v případě Kepleru nezačala na zelené louce, ale vzala si to nejlepší z Fermi a vytvořila architekturu, která je vhodná pro vyrábění GPU s velkým počtem výpočetních jednotek při razantně sníženém pracovním příkonu čipu na vysokých frekvencích. Konkurenční architektura AMD je povedená, a tak proti ní musela Nvidia vytáhnout něco opravdu robustního. Kepler alias GK104 něčím přesně takovým je.

Jádro GK104 (28nm)

Architektura Kepler ale nedorazila první v podobě GPU GK104, několik dnů předtím se objevila v podobě mobilního GPU GK107 označovaného jako GT640M. Toto řešení překvapilo poměrně solidním výkonem, ale ani v nejmenším nenaznačilo převahu, s jakou přitáhne na pole proti konkurenčním Radeonům HD 7970 (alias Tahiti) architektura Kepler v podobě GPU GK104. Nvidia se tentokráte nechlubila papírovou kartou, jako tomu bylo v případě prvního Fermi, ale poslala na trh kartu, kterou lze v současnosti koupit v libovolném e-shopu také v ČR.

V příštích týdnech se také zcela jistě začnou objevovat na trhu deriváty tohoto high-endového GPU, které budou nejspíše pro českého hráče zajímavější. Ostatně ani v zahraničí netvoří prodeje high-endu nějaké zásadně velké procento. V případě high-endových GPU jde spíše o prestiž a obě konkurenční společnosti to velmi dobře vědí. Aby AMD mohlo nějak zásadně konkurovat se svou Graphics Core Next architekturou, musí vyřešit několik zásadních problémů, z čehož ten největší je prozatím limitace ze strany propustnosti paměťové sběrnice, která poměrně značně omezuje výkon vlajkové lodi Tahiti.

Když jsem naznačoval velkou převahu a těžkou váhu v případě Kepleru, tak všichni jistě čekáte obří čip, kterým Nvidia musela vytáhnout proti konkurenčnímu AMD Tahiti. Není se čemu divit, protože za posledních několik let Nvidia vytvářela high-endová GPU, které svou plochou skoro vždy přeskočila 500 mm2. Stará dobrá G80 nebo GT200b byla obřím čipem a o Fermi v podobě GF100 a následně GF110 také nešlo prohlásit, že jsou zrovna kompaktní. GF104 je v tomto ohledu velké překvapení, neboť jeho rozměry jsou ještě podstatně menší než např. u GF114 v případě mainstreamové GeForce GTX 560Ti. Aby toho nebylo málo, tak AMD Tahiti vypadá vedle GK104 jako otesánek. Oba jmenované čipy využívají 28nm výrobní proces, takže kde se Nvidii podařilo uspořit tolik tranzistorů? Pokud by se jednalo o zcela novou architekturu, byl by výše uvedený fakt poměrně snadno vysvětlitelný. Kepler ale z Fermi z velké části vychází. High-endový čip DirectX 11 s velikostí a spotřebou mainstreamu jsme tady už dlouho neměli.

Referenční karta GeForce GTX 680

Pojďme se ale nyní podívat na samotné specifikace GPU GK104. První, co vás na tomto GPU zaujme, je počet CUDA Cores, které jsou nyní přítomny v počtu 1536, což je 3krát více než v případě staršího GF110. Další novinkou je fakt, že Nvidia u Kepleru upustila od vyššího taktu shaderů ve srovnání se zbytkem čipu. Z tohoto důvodu musela zřejmě také navýšit razantně počet CUDA Cores alias stream procesorů, aby tento deficit nějakým způsobem vyrovnala. Pokud se podíváme na počet texturovacích jednotek (128) a také renderovacích jednotek (32), můžeme dojít k zajímavému porovnání se starším mainstreamovým GF11 4 u GeForce GTX 560Ti. Pokud půjdeme dále, narazíme na 256bitovou paměťovou sběrnici, která se zdá tou nejslabší částí. Je si snad Nvidia jistá, že nebude stejným limitujícím faktorem jako v případě konkurenčního Tahiti?

Zajímavou novinkou v případě Kepleru je přítomnost tzv. Boost Clock, který opět reprezentuje zvyšování frekvence pro GPU, ale tentokráte pro GPU jako celek a nikoli pro určitou část, jako tomu bylo v minulosti. Standardní takt pro GPU GK104 byl stanoven na 1006 MHz a Boost Clock garantuje zvýšení taktu na 1058 MHz (umí i vyšší frekvence). V budoucnu si tedy budeme uvádět stejný takt pro všechny části GPU, jako je tomu u konkurenčního AMD. Pokrok je také vidět v případě rychlosti GDDR5, které jsou standardně dodávány na taktu 6006 MHz. U minulých generací se Nvidia potýkala s nemožností dosáhnout na vyšší takty, což zapříčinil design paměťového řadiče. Na druhou stranu bude nejspíše takt okolo 6 GHz konečnou a přílišného potenciálu pro přetaktování se zřejmě nedočkáme (GDDR5 jednoduše o moc vyšší frekvence už nezvládnou).

Pokud bychom udělali takové trošku populistické srovnání založené na taktu GK104 (1536 SP na taktu 1006 MHz) a taktu shaderové části v případě starší GF110 (512 SP na taktu 1545 MHz), tak dojdeme k závěru, že nové GPU má téměř dvojnásobek shaderového výkonu. V případě texturovacího výkonu je to ještě více, protože zde musíme mít na paměti, že TMUs běží na frekvenci GPU také u staršího GF110 a zbrusu nové GPU GK104 jich má dvojnásobný počet (128). K posunu ovšem nedošlo v případě paměťové propustnosti, která ustrnula na 192 GB/s, což je zásluhou především podstatně zvýšeného taktu GDDR5 ve srovnání se starším modelem a také užší (256-bit) sběrnice. Počet ROPs zůstal stejný jako v případě GF110, takže asi nebudou podle Nvidie zásadním limitujícím faktorem.

Grafická karta	GeForce GTX 580	GeForce GTX 680	Radeon HD 7970
GPU	GF110	GK104	Tahiti
Počet tranzistorů	3 mld.	3.5 mld.	4.31 mld.
Výrobní technologie	40 nm	28 nm	28 nm
Frekvence jádra	775 MHz	1006 MHz	925 MHz
Frekvence shaderů	1544 MHz	1006 MHz	925 MHz
Počet shaderů	512	1536	2048
Pixel fillrate	37 200 Mpix/s	32 192 Mpix/s	29 600 Mpix/s
Texel fillrate	49 600 Mtex/s	128 768 Mtex/s	118 400 Mtex/s
Počet RBE	48	32	32
Počet TMU	68	128	128
Velikost paměti	1536 MB GDDR5	2048 MB GDDR5	3072 MB GDDR5
Frekvence paměti	4 200 MHz	6000 MHz	5 500 MHz
Šířka sběrnice	384-bit	256-bit	384-bit
Propustnost sběrnice	201 983 MB/s	192 000 MB/s	264 000 MB/s
Verze DirectX	DirectX 11	DirectX 11	DirectX 11.1

Jak už jsme řekli výše, je zřejmé, že Kepler aka GF104 není nijak velkým čipem a s tím souvisí také spotřeba. Ta se pohybuje v maximu podle Nvidie okolo 195 W a podle všeho může být průměrná spotřeba s aktivním turbem (Boost Clock) okolo 170 W. Na rozdíl od konkurenčního Tahiti ovšem GK104 uvádí svou spotřebu v klidu na úrovni 15 W, což je zhruba 5krát více než u AMD. Otázkou ovšem je, jestli je tato spotřeba brána jako klidová ve 2D, nebo v případě uspání celého počítače. Spotřeba by tedy papírově měla být menší než v případě AMD a jeho Tahiti a zde by určitě AMD mělo nemalé starosti. Společnost totiž novým Radeonům vytvořila image úsporných, tichých a výkonných karet. Kepler by tyto jejich výhody mohl snadno smést ze stolu.

GPU GK104 v sobě integruje zhruba 3.5 mld. tranzistorů na ploše 294 mm2, což je pouze o něco málo více, než mělo starší high-endové jádro GF110. Zde tedy leží ono kouzlo, které dovolilo mít u nového GPU podstatně nižší plochu jádra při 28nm výrobním procesu. To samo o sobě hned vyvolává otázku, jak je možné, že při tomto počtu tranzistorů Nvidia vměstnala do GPU trojnásobný počet stream procesorů. To si objasníme až v další kapitole, tedy alespoň částečně. Nový výrobní proces TSMC dovolil také v případě high-endu dosáhnout na rozumné provozní vlastnosti čipů s velkým počtem tranzistorů.

Nyní ale přejděme k dostupnosti nového produktu. Naštěstí není nový high-end Nvidie pouze papírovou kartou s rozeslanými několika málo funkčními vzorky novinářům. Za cenu okolo 12 tisíc je cenově přímým konkurentem AMD Radeonu HD 7970. Podobnou částku si Nvidia účtovala po uvedení také za GeForce GTX 580/480 a u nás kolísala cena podle kurzu dolaru, i když opět výrazněji v případě jeho zvýšení, jak už bývá u obchodníků zvykem. AMD bude muset s cenami svých Radeonů HD 7900 zřejmě razantně dolů, neboť GeForce GTX 680 se usadila cenově někde mezi ně a při jejich reálném výkonu by z high-endové řady Radeonů udělala téměř neprodejné zboží. Počítám, že se v následujících měsících setkáme s propadem cen AMD Radeonů HD 7970 pod 10 tisíc korun. Profitovat tedy bude zase zákazník.

Pokud se podíváme do českých obchodů, pak zjistíme, že nejlevnější GeForce GTX 680 se pohybují už pod 11 000 Kč. Nejlevnější edice nabízí Gigabyte a MSI, ale pozor, jedná se o referenční verze. Na cestě jsou samozřejmě také verze s vlastním chlazením a první takovou kartou je GeForce GTX 680 z produkce Asusu. OC edici rovněž přichystal Gigabyte. Nvidia to tentokráte zvládla perfektně, protože na rozdíl od konkurenčních Radeonů HD 7900 nemá s dostupností problém. TSMC prozatím není úplně schopno vyhovět poptávce obou konkurenčních firem a také Nvidia se takto může dostat do problémů, ale prozatím to tak nevypadá.