Shanghai vs. Nehalem aneb co chystá AMD a Intel?

6.6.2008, Lukáš Petříček, článek

V dnešním článku se blíže podíváme na to, co pro nás chystají věční rivalové na poli procesorového průmyslu AMD a Intel. AMD má již brzy přinést inovovanou architekturu "K10.5" s jádrem Shanghai, zatímco Intel připravuje novou architekturu Nehalem.

Kapitoly článku:

Shanghai vs. Nehalem aneb co chystá AMD a Intel?
AMD Shanghai jako "K10.5"
NGA Intel Nehalem
Přehled připravovaných procesorů a závěr

Pojďme se podívat na plány AMD a na nové procesory a platformy, které nás čekají. K10 již vystřídala řadu revizí, počínaje BA nasazených v prvních Opteronech až po nejaktuálnější revizi B3. Ta přináší vyšší takty a odstraněn byl "TLB bug" (errata 298), ale stále má několik drobných nedostatků. Asi nejpodstatnější problém je vyšší spotřeba a v porovnání s konkurenčními procesory Core 2 Quad i nižší pracovní frekvence.

Současné procesory architektury K10 jsou vyráběny 65nm výrobní technologií, ze které plyne další nedostatek, a tím je velikost čipu. Díky čtyřem jádrům, řadiči paměti a přidané L3 cache lze úsporu hledat na 65 nm jen stěží. Cena čtyřjádrových procesorů je navíc poměrně nízká, zejména vyhledem k velikosti čipu, takže výdělky jsou v již tak napjatém konkurečním prostředí značně omezené. Odpověď na zmíněné nedostatky má již během druhé poloviny roku přinést jádro označované Shanghai (první prezentace funkčních 45nm čipů již proběhla 4. března na CeBitu v Hannoveru, nicméně na produkční čipy si ještě budeme muset počkat).

Shanghai aneb "K10.5"

Asi nejpodstatnější změnu přinese zřejmě samotná výrobní technologie, která dovolí vyrábět menší jádra a za nižší cenu. Ačkoliv AMD v první generaci 45nm výrobního procesu, v současnosti označováného jako revize C, nepoužije technologii HKMG (kombinace technologií s použitím High-k dielektrika a technologie kovových hradel), zmenšení čipu a snížení provozního napětí přinesou nižší spotřebu a dovolí další navyšování pracovních frekvencí (nejrychlejší modely AMD zatím mají TDP až 125 wattů, ale poslední 65nm Phenom X4 9950 má mít při uvedení TDP údajně až 140 wattů).

Jádro AMD Shanghai přezdívané "K10.5" (podle odhadů obsahuje na 705 milionů tranzistorů na ploše 243 mm2, bloky 6 MB L3 cache zabírají přes 30 procent plochy jádra), zdroj: AMD

S jádrem Shanghai vyrobeným 45nm SOI výrobním procesem AMD slibuje růst IPC, kapacity L3 cache na rovných 6 MB a podporu 800MHz DDR2 pamětí pro sérii Opteronů 2000 a 8000. Pro výrobu 45nm procesorů již bude také nově použito imerzní litografie. K tradiční SOI technologii bude nově použito i ultra Low-k dielektrikum (s dielektrickou konstantou k = 2,4) a již čtvrtá generace technologie napnutého křemíku. Výkon tranzistorů bude až o 20 procent vyšší a zárověň klesne spotřeba až o 20 procent, čemuž má odpovídat i plánované snížení TDP u připravovaných modelů procesorů. Jakékoliv závěry jsou však aktuálně předčasné a nejdůležitější bude reálná spotřeba (a také dosažitelné takty) pro tuto revizi. Další změny jsou zatím nejasné, ale startovací frekvence budou v rozsahu 2,4 až 2,8 GHz.

U AMD je další růst frekvencí zaručen díky CTI (Continuous Transistor Improvement), volně přeloženo jako postupný vývoj tranzistorů a STT (Shared Transistor Technology), kde jsou osvědčené metody a optimalizace v co nejvyšší míře použity i v další generaci výrobního procesu. S "vývojem" tranzistorů a jak se optimalizuje výrobní proces, roste samozřejmě výtěžnost a čipy jsou kvalitnější - klesá průměrná spotřeba a zvyšují se možnosti přetaktování (ostatně, kdo by v době uvedení prvních 90nm Athlonů a Opteronů očekával takty až 3,2 GHz, dnes dokonce pro dvoujádra?).

Úvodní takty jsou s přechodem na novější výrobní technologii u AMD obvykle na nižší úrovni, než u odladěného výrobního procesu, nicméně K10 "nedozrávala" tak dlouho jako K8 a 90nm výrobní proces. Pravděpodobné je nahrazení procesorů vyšší třídy, postupné další navyšování pracovních frekvencí a v první řadě zejména posílení serverové oblasti (pro 65 nm bude strop zřejmě 2,6 GHz).

Kromě zmiňovaného jádra Shanghai, které míří do serverové oblasti, současné jádro Agena u desktopových procesorů Phenom přijde s 45nm výrobní technologií také jádro Deneb a jádro Propus (bez L3 cache). Protože se latence a výkon s L3 cache díky integrovanému řadiči paměti příliš neliší a výhody jsou zejména pro aplikace s daty s libovolným přístupem (uplatňují se nejvíce u databázových aplikací), není nasazení velké L3 cache pro mainstream procesory příliš efektivní. L3 cache podle dosavadních testů dopadu na výkon nemá výrazný vliv, ačkoliv s rostoucí kapacitou a v případě jádra Shanghai budou rozdíly nepochybně vyšší. Na 45 nm 6 MB L3 cache zabere okolo 30 procent jádra, takže jádro bez L3 bude mít díky menší ploše nepochybně vyšší výtěžnost, a bude možné jej prodávat za příznivější cenu.

Druhá generace 45nm výrobního procesu, označovaná zatím jako revize D, bude již zřejmě implementovat technologii HKMG (High-k a technologii kovových hradel) a zde se dostáváme již k druhé generaci procesorů na 45 nm "K10.5". Dalším dílem do celé skládačky u AMD bude procesor Suzuka. Ten bude pracovat s čipsety AMD RS780 a SB700S (severní, respektive jižní můstek). Prakticky se má jednat o Shanghai s DDR3 řadičem paměti pro socket AM3 (procesory ale mají být zpětně kompatibilní). Kromě podpory až 1333MHz DDR3 zřejmě nedojde k žádným výrazným změnám - samozřejmostí zůstává podpora 1x HyperTransport 3 sběrnice a AMD-V. Pro MP a DP servery AMD zatím zůstane u DDR2 a současné platformy.

Poznámka: V serverové oblasti mělo příští rok přijít na trh jádro Montreal jako další evoluce jádra Shanghai pro platformu Piranha (kde mělo mimo jiné dojít k navýšení L2 cache na 1 MB na jádro). Jaký výkonnostní rozdíl by tato úprava jádra přinesla, je zatím nejasné. Oproti K8, kde však se změnou velikosti L2 cache došlo k navýšení latencí, zde má AMD K10 výhodu podstatně vyššího výkonu a propustnosti cache (rozdíly jsou až v řádu stovek procent), zatímco rozdíly u jader Brisbane a Windsor jsou v řádu jednotek procent. Plánován zde byl taky osmijádrový procesor Sandtiger. Po posledních změnách v roadmapě AMD a dle slov viceprezidenta Randy Allena ale bude výhodnější řešení přinést šestijádrový procesor (bude se jednat o rozšířený čip Shanghai, pouze zde přibudou další 2 jádra).

Šestijádro Istanbul AMD připravuje na rok 2009 (vzorky jsou plánovány na konec letošního roku, masová produkce nás čeká až v druhé polovině příštího roku). Istanbul má již i v počtu jader u Intelu přímého konkurenta - jádro Dunnington (ten bude postaven na třech dvoujdárech Penryn s masivní L3 cache). Istanbul bude v každém případě prvním nativním šestijádrovým procesorem AMD .

Istanbul bude následovat Sao Paulo, také s šesti jádry, ale již pro platformu Maranello. Tato nová platforma bude používat socket G34 s DDR3 pamětí a přinese podporu 4. linky HT3.0 (ačkoliv 4 linky jsou přítomny již v Barceloně, zřejmě i z důvodu zpětné kompatibility nejsou použity). Maranello má přinést také technologie HTC (efektivnější řízení spotřeby a taktu CPU), Probe Filter (efektivnější správa cache a spolupráce CPU ve vícesocketové konfiguraci) a APML (lepší kontrola teploty CPU a dalších funkcí přes SBI rozhraní). V první polovině roku 2010 bude následovat procesor s 12 jádry "Magny-Cours".

Díky rychlému růstu počtu jader AMD zřejmě opustí procesory z pouze jediného kusu křemíku a dá se na cestu MCM. V případě Magny-Cours AMD podle všeho použije 2 jádra Sao Paulo spojené HT3.0 a zřejmě jako MCM (Multi Chip Module, více jader na čipu). V souvislosti s Magny-Cours je také zmiňován čtyřkanálový řadič paměti, protože nejvyšší varianta Nehalemu (Nehalem-EX, s kódovým označením Beckton) bude mít také čtyřkanálový IMC, a jednalo by se tedy o logický krok. Další generace procesorů má mít již novou architekturu AMD Bulldozer. Správná volba počtu jader, ač ovlivněná i výrobní technologií, je dnes naprosto klíčová. V každém případě AMD mimo růstu počtu jader stále podporuje myšlenku specializovaných akcelerátorů.

AMD Bulldozer má být zcela nová architektura a má obsahovat 8 až 16 jader na čipu. Přinést má výrazný růst výkonu pro HPC sféru a také nové instrukce SSE5 (specifikace naleznete mezi dokumenty zde). První testovací čipy se mají objevit již koncem roku 2009, vyrobené 45nm výrobní technologií s následným přechodem na 32 nm. Dostupných informací je zatím poměrně málo a situace se zřejmě vyjasní až v průběhu příštího roku. Známá je mimo to snad pouze plánovaná spotřeba okolo 100 wattů, takže ani zde procesor nijak nevybočuje. Architektura Bulldozer má již používat M-Space design (architektura stavebních "bloků" CPU, které budou složeny pro konkrétní platformu) a jádra, GPU i cache mají mít modulární formu, a bude je možné efektivně kombinovat. Bulldozer je ale zatím daleko...

AMD v současnosti používá několik socketů a několik dalších je již "na cestě". Kromě inovace procesorů se chystá řada novinek právě i v oblasti socketů. Nejrozšířenějším je pro aktuální nabídku procesorů zřejmě současný socket AM2 respektive AM2+, který dále doplní socket AM3 s podporou DDR3 pamětí pro procesory Suzuka. V serverové oblasti nás čeká Socket F+ (jinak také socket 1207+), který již bude podporovat HT3.0.

Přehled připravovaných procesorů AMD "K10.5"
Jádro	Série	Počet jader	L3 Cache	IMC	HT	IGPU	TDP*	Socket	Dostupnost
Magny-Cours	MP/DP servery	12	12 MB	U/R DDR3	4x HT-3	ne	68/95/120 W	Socket G34	1H 2010
Sao Paulo	MP/DP servery	6	6 MB	U/R DDR3	4x HT-3	ne	68/95/120 W	Socket G34	1H 2010
Istanbul	MP/DP servery	6	6 MB	RDDR2	3x HT-3	ne	68/95/120 W	Socket F+	2H 2009
Shanghai	MP/DP servery	4	6 MB	RDDR2	3x HT-3	ne	68/95/120 W	Socket F+	2H 2008
Suzuka	Desktopy/1P servery	4	6 MB	DDR3	1x HT-3	ne	65/95/125 W	AM3	Q2 2009
Deneb	High-end desktop	4	6 MB	DDR2	1x HT-3	ne	65/95/125 W	AM2+	2H 2008
Propus	Mainstream desktop	4	0 MB	DDR2	1x HT-3	ne	65/95/125 W	AM2+	Q2 2009
Swift	Mainstream mobile	2	0 MB	DDR2	1x HT-3	ano	?	FS1	Q2 2009

* - TDP (Thermal Design Power) AMD uvádí TDP jako maximální možnou spotřebu, spotřebu při typickém nasazení vyjadřuje ACP (Average Cpu Power) kde 68/95/120 W odpovídá hodnotám 55/75/105 wattů - jedná se o předpokládané hodnoty (pravděpodobně ale AMD dodrží současné schéma TDP)

Kromě serverové oblasti a desktopů nás poměrně velké změny čekají také v segmentu mobilních procesorů. AMD míří k další revoluci v CPU architektuře, a tou je sloučení CPU a GPU na úrovni čipu s kódovým označením AMD Fusion. Prvním krůčkem bude pro mobilní segment jádro Griffin pro platfromu Puma. Griffin je první jádro navržené přímo pro mobilní segment - vychází z architektury K8 s řadou dalších vylepšení. Výrazně lepší má být řízení spotřeby, dále schopnost měnit nezávisle takt všech jader, údajně až k 300 MHz, stejně tak měnit dle potřeby takt HyperTransport 3.0 sběrnice (což je další novinka oproti stávajícím Turionům X2). Spotřeba v případě nízké zátěže bude tedy jistě velice příjemná. Další verze mobilního CPU již bude integrovat i GPU.

Integrace GPU a CPU na jedno jádro jako MCM a pozdějí na úrovni samotného jádra přinese nížší spotřebu, podstatně vyšší efektivitu a nižší cenu. Swift, první verze postavená na bázi Fusion, má přijít na trh v druhé polovině roku 2009, zatím určena primárně pro mobilní trh. Pro rok 2010 AMD chystá obdobnou a výkonnější verzi platformy i pro desktopy (varianta Nehalemu s integrovaným GPU přijde na trh také během příštího roku, takže AMD nemá času na zbyt).

Na veřejnost také nedávno prosákly informace o předpokládaném outsourcování výroby CPU pro AMD Fusion. V současné době zatím není jasné, jestli dojde pouze k outsourcování GPU nebo celého čipu pro AMD Fusion (nebo dokonce části výroby CPU). Testy pro zpracování waferů pro výrobu se SOI technologií v TSMC jsou každopádně již v přípravě.

Pojďme se dále podívat, co pro nás v blízké budoucnosti připravuje Intel.