Intel Haswell - 4. krok k dokonalosti

17.10.2012, Petr Štefek, technologie

V našem článku se tentokráte podíváme na to, co pro nás chystá Intel u další generace své procesorové architektury Haswell. Společnost nám odtajnila na IDF 2012 některé zajímavé detaily a plány pro novou procesorovou rodinu.

Kapitoly článku:

Haswell a Ivy Bridge toho mají mnoho společného, a pokud se podíváme dovnitř na funkční jednotky architektury, tak shledáme, že Haswell se od Ivy Bridge téměř neliší. Změny ale samozřejmě jsou, když Intel představuje tuto architekturu jako zbrusu novou, a tak zde můžeme evoluční verze AVX2 (Advanced Vector Extension 2), a také TSX (Transactional Synchronization Extensions). Nové instrukční sady jsou podle Intel klíčové pro dosažení vyššího výkonu až o 20% v případě starších aplikací. Podle Intelu by byl výkonnostní skok v případě optimalizací algoritmů speciálně pro Haswell ještě větší, pokud aplikace využije jeho specifických instrukčních sad a vlastností.

Všechny změny jsou patrné především ve front-endu jádra. Execution pipeline nebo latence cache L1/L2 zůstávají beze změny. Haswell se naopak může pyšnit vylepšenou branch prediction, větší L2 TLB (Transaction Lookaside Buffer – zlepšení rychlosti v oblasti virtual adressing translation) a out-of-order Window.

Ivy Bridge má na rozdíl od architektury Haswell pouze 6 execution portů (tzn. dokáže vykonat až 6 mikrooperací současně za takt). Haswell jde dále a execution portů má k dispozici rovnou 8. To teoreticky znamená, že procesory na architektuře Haswell budou podstatně rychlejší ve vykonávání kódu. V praxi ovšem musíme počítat s tím, že pro plné využití tohoto přídavku budeme muset instrukce ke zpracování vybírat, neboť exekuční porty nejsou univerzální.

Abychom byli o něco přesnější, tak uvedeme, že Intel přidal 4. port pro celočíselné a logické instrukce, což je specializovaný port, který není blokovaný v případě využití AVX2 instrukcí. Výsledkem je, že Haswell může zpracovat až 4 celočíselné operace za takt. Pokud se ptáte, proč je toto vylepšení tak důležité, pak vězte, že Intel podle svých slov odstranil potenciální Achillovu patu a dekodér procesoru dokáže dodat až 4/5 instrukcí za takt execution jednotkám.

Intel krom výše uvedených změn dodal také další branch jednotku, která by měla zvýšit výkon v případě vysoce větveného kódu. Nyní se dostáváme k dalšímu portu, který Intel považoval za nutný, a v tomto případě má na starosti výhradně ukládání adresovacích příkazů. Haswell tak umí dvě nahrání a uložení v jednom cyklu.

Dva další porty jsou zde pro operace s plovoucí desetinnou čárkou (AVX2), což ve výsledku znamená výkonnostní výhodu při vykonávání 256bitových příkazů. Oproti Ivy Bridge je teoretická výkonnost dvojnásobná. Intel byl k tomuto kroku dotlačen především díky novému AVX2, které pracuje s Fused Multiply-Add (FMA) instrukcemi, které se samy o sobě skládají ze dvou operací ve stejný čas. Pokud bychom nepřidali druhý port právě pro zpracování FMA, tak by docházelo k neefektivitě, čemuž musel Intel v případě Haswellu předejít.

AVX2 (Advanced Vector Extension 2) podporuje krom výše uvedeného také celočíselné operace s vektory (256 bitů). Zde se o toto starají zcela samostatné výpočetní jednotky. Výkon architektury Haswell v případě operací s plovoucí desetinnou čárkou by oproti starším architekturám Ivy Bridge/Sandy Bridge měl být podstatně vyšší. Intel hovoří až o dvojnásobném výkonu oproti výše uvedeným architekturám. Podobně je tomu ve srovnání s architekturou AMD Buldozer, která si v tomto ohledu vedla velmi dobře. Vše je zde opět v kompetencích AVX2, která podporuje FMA instrukce.

Samozřejmě, že pouhou koupí procesorů Haswell se v bechmarcích nedostanete na dvojnásobné hodnoty oproti procesorům Ivy Bridge nebo Sandy Bridge. Je potřeba, aby kód byl optimalizovaný pro AVX2, jinak bude nárůst spíše mezi 10-20%. To se bude týkat všech starších aplikací, které se vývojářům nevyplatí upravovat a optimalizovat, což znamená naprostou většinu.

Opakujeme zde fakta o AVX2 v každé druhé větě. Intel s touto instrukční sadou spojuje téměř veškerý pokrok Haswellu. Podle společnosti se jedná strategicky důležitý milník ve vývoji. V momentu, kdy se výrobci GPU (AMD/Nvidia) snaží jejich produkty co možná nejlépe uzpůsobit pro GPGPU aplikace s ambicí nahradit běžné „general-purpose“ procesory (CPU), je Intel odhodlán říct k tomuto závodu své. Veškerý vývoj směřuje k využití těchto architektur v HPC segmentu. Intel je připraven dokonce na 512bitovou SIMD extenzi, protože ve svém návrhu počítá se dvěma porty pro 256bitové FP (Floating Point), které mohou být teoreticky zkombinovány do jedné funkční jednotky (512bitové).