Grafická architektura Intel Xe: mysleme exponenciálně

9.9.2019, Jan Vítek, článek

Intel se chystá v příštím roce vstoupit na trh, který přes všechny své zkušenosti a zdroje dlouho zanedbával. Po řadě let připraví samostatné grafické čipy na přídavných kartách a my se podíváme na to, co o nich zatím víme, co jen tušíme a co si můžeme přát.

Kapitoly článku:

Grafická architektura Intel Xe: mysleme exponenciálně
Intel Xe: co víme a co tušíme
EMIB, Foveros, ale i software

Raja Koduri dostal svou divizi v Intelu a začal si ji plnit především lidmi, které osobně znal z profesního života. Přišel Chris Hook, bývalý globální ředitel marketingu v AMD, po něm také Darren McPhee, někdejší produktový marketingový ředitel v AMD a také Damien Triolet, někdejší IT novinář, z nějž se stal také pracovník marketingu v AMD.

Z NVIDIE Koduri ukořistil Toma Petersona, ředitele technického marketingu a čipového architekta, pak získal i známého Jima Kellera, který pracoval i na procesorech Zen či ještě starší generaci K10 a nakonec se objevilo jméno Heather Lennon, dřívější manažerky marketingového oddělení v AMD. To všechno jsou pochopitelně pouze lidé, kteří se dostali do zpráv především právě kvůli tomu, že si je Intel přetáhl od své konkurence. Celá nová grafická divize ovšem čítá kolem 4500 pracovníků. A na čem asi tak dělají?

Architektura

První řada produktů Xe má být založena na již aktuální generaci grafických čipů 11. generace (Gen11 iGPU), což je pro nás výhoda, neboť můžeme počítat s tím, že Intel využije své obvyklé EU (Execution Unit), ovšem i v mnohem masivnějších počtech.

Můžeme se tak podívat do whitepaperu (pdf), který popisuje novou generaci, přičemž hlavním tahákem je prostě a jednoduše to, že grafická třída GT2 už neobsahuje pouze 24 jader EU, ale rovnou 64, což bylo do této doby vyhrazeno jen pro jedny z nejvýkonnějších grafiky Iris Pro.

Od toho se pak odvíjí většina změn nové GT2 oproti staré GT2 9. generace z původních procesorů Skylake. Máme tu jednu hlavní jednotku (Slice), či prostě grafické jádro, které se ale skládá už z osmi a ne tří podjednotek (sub-slice), každá pak po osmi EU.

Tomu odpovídá i počet samplerů a kapacita paměti registrů, ovšem třeba kapacita L3 cache už je na jeden sub-slice 1,5násobná, máme tu vylepšenou kompresi dat pro ukládání do paměti, zpracování dvojnásobného množství pixelů za takt či nové/nově podporované technologie jako Active Sync nebo Coarse Pixel Shading (CPS).

Techniku CPS bychom mohli dát na stejnou úroveň s NVIDIA Variable Rate Shading (VRS), a to prostě díky tomu, že šetří výkon chytrým využitím pixel shaderů, ale za cenu snížení kvality, což by mělo nastat především tam, kde to bude nejméně vadit. Využívají se zde stejně jako v případě NVIDIE různé ratingy (2x2, 1x2 či 4x4), dle nichž se tak tvoří jeden "coarse pixel" zabírající až čtyři opravdové pixely. Jako obvykle jsou ty nejbližší objekty renderovány v nejvyšších detailech, přičemž vzdálenější mohou vypadat hůř.

Cílem tak je zajistit vyšší snímkovací frekvenci, což se může u stále ještě velice slabých integrovaných grafik Intelu hodit, když ty v 11. generaci cílí na výkon kolem 1 TFLOPS, což je výkon srovnatelný s GeForce GT 1030. Vraťme se ale k očekávané architektuře čipů Xe.

V případě společnosti NVIDIA dobře víme, že 16 CUDA jader tvoří bloky, z nichž čtyři se rovnají jednomu SM (Streaming Multiprocessor). Dva SM tvoří jeden TPC (Texture Processing Cluster a pak čtyři nebo šest TPC vytvoří jeden GPC (Global Processing Cluster), takže ten má 512 nebo 768 CUDA jader.

Jádra Intelu mají také svou hierarchii, ovšem samozřejmě odlišnou. Máme tu jádra EU, která se skládají ze čtyř aritmetických logických jednotek, které však třeba na rozdíl od Stream procesorů v Radeonech nezvládnou jednu, ale čtyři operace za takt, takže jedna EU by se dle toho dala přirovnat k osmi Stream procesorům (AMD SP).

Máme tu pak vždy osm jader EU organizovaných do jedné sub-slice, která má vedle EU ještě texturovací jednotku (sampler), SLM (sdílená lokální paměť) či dataport zajišťující přístup do L3 cache.

Osm sub-slice je pak organizováno do jedné slice po celkových 64 EU a do toho navíc ještě patří geometrický engine, rasterizační jednotka, pixel backend či celá L3 cache.

Kdybychom uvažovali tak, že jedna EU rovná se osmi AMD SP, pak jeden celý slice nabízí 512 jader. Ale aby to bylo jednodušší a odpovídající diagramům Intelu, budeme mluvit o 64 EU na jeden slice, což by měla být základní nedílná jednotka a obdoba GPC v GPU od NVIDIE. A co jsme se nedávno dozvěděli?

iDG1LPDEV = "Intel(R) UHD Graphics, Gen12 LP DG1" "gfx-driver-ci-master-2624"
iDG2HP512 = "Intel(R) UHD Graphics, Gen12 HP DG2" "gfx-driver-ci-master-2624"
iDG2HP256 = "Intel(R) UHD Graphics, Gen12 HP DG2" "gfx-driver-ci-master-2624"
iDG2HP128 = "Intel(R) UHD Graphics, Gen12 HP DG2" "gfx-driver-ci-master-2624"

Intel sám v testovacích ovladačích verze 26.20.16.9999 uvedl tyto čtyři řádky, které jednoznačně ukazují na 12. generaci jeho grafiky (DG jako Discrete Graphics), čili první karty s čipy Xe, kde čísla 128, 256 a 512 v označení by měla odpovídat počtu EU, čili by měla být dělitelná 64. To samozřejmě jsou, takže se koukáme nejspíše na označení grafických čipů tvořených dvěma, čtyřmi a osmi jednotkami slice.

Čili pokud by měl Intel použít víceméně stejnou architekturu jako v 11. generaci iGPU (budou nutné změny kvůli většímu počtu slice v jednom čipu), pak by čip iDG2HP512 měl nabídnout osminásobný výkon na stejném taktu. My přitom víme, že Iris Plus Graphics v procesorech Ice Lake pracují na taktu 1050 – 1100 MHz a nabízí 1075 – 1126 GFLOPS výkonu. V reálných hrách se pak jedná zhruba o dvojnásobek toho, co předvádí UHD Graphics 620.

Kdyby tak možnosti první generace grafik Xe končily na konfiguraci 512 EU, na taktu 1100 MHz by to dělalo hrubý výkon 9 TFLOPS, ovšem právě takt by měl Intel ještě vyladit a pokud je zvedne dejme tomu o 40 procent na střízlivých 1540 MHz, už by to dělalo 12,6 TFLOPS a zde už se pohybujeme mezi GeForce RTX 2080 Super a RTX 2080 Ti, což by rozhodně nebylo špatné na první pokus o samostatnou grafiku po Intelu 740. Aby tak Intel dosáhl s 512 EU na hrubý výkon karty GeForce RTX 2080 Ti, musel by takovou grafiku rozběhnout na téměř 1,7 GHz. To není nereálná frekvence, ale jak vysoká opravdu bude, zatím nelze říci.

Intel se přitom už dávno naučil, jak spojit na stejném čipu přinejmenším dvě grafické slice, což bylo realizováno třeba v rámci grafiky Iris Plus Graphics 650. Ta nese dvě slice generace 9.5 (Kaby Lake), které, jak dobře víme, mají po 24 EU, čili dohromady 48. Ovšem co moderní způsoby pouzdření?