Za 6 let v AMD někoho konečně napadlo, že do serveru je potřeba CCD které neplýtvá plochou na low-density proces v honbě za 6 GHz, a zvolit High-density proces jako úsporné SoC ve smartphonech. Konečně bude mít AMD a Intel odpověď na dva roky starou 128-jádrovou ARM Ampere Altra MAX. Bohužel na dva roky starý 3Socketový 192-jádrový (3x 64) Graviton 3 se to stejně chytat nebude spotřebou (celá 3S se vleze do 300W). Alespoň že Zen 4 bude mít o fous lepší IPC (G3 s jádry ARM V1 má IPC jako Zen 3). No jo, ale Nvidia Grace se 144 jádry V2 na 4nm už má IPC vyšší o 19% jak Zen 4. A to nás ještě čeká letos na konci roku Graviton 4, taky V2 jádra a nejspíš 3x 64 na 4nm. Větší IPC, více jader, poloviční spotřeba a za zlomek ceny protože si ty procáky vyrábí přímo u TSMC. To není jen win-win. To je win-win-win-win.
x86 výrobci sice nechtějí servery přenechat ARMu, ale budou muset, protože ARM v serverech raketově roste. A teď v nadcházející ekonomické krizi každý bude šetřit násobně víc. Intel je s těmi 144 jádrovým Gracemontem úplně v pytli - IPC jako Skylake nezní špatně jen do té doby, než si uvědomíme že Zen 4 bude mít o 54% vyšší IPC a bude mít 128 jader. Nebo že ARM V2 má IPC vyšší o ukrutných 85% (tedy 1,85 což je blízko dvojnásobnému IPC). Jen pro srandu tak kdyby Apple dělal servery, tak M2 má IPC větší 2,4x než Skylake / Gracemont / Zen 1.
ARM jakožto RISC je prostě lepší, protože netrpí polynomickou explozí při paralelním dekodování instrukcí (to je to příšerné CISC kodování instrukce s variabilní délkou od 1 bajtu až po 15 bajtů, které u 8088 se 128kB RAM znamenalo o 20% hustější binárku a tedy úsporu příšerně drahé RAM. A taky 8088 potřebovala 15 taktů na vykonání jedné instrukce, takže tvůrci x86 si ani nedokázali představit, že by CPU jednou mohlo vykonávat 100x víc instrukcí za takt jako dnešní stroje, a že by jednou to variabilní kodování mohlo docela vadit. Mimochodem 8. instrukce může u x86 začínat na 99 různých místech a souhrnně pro všech 8 instrukcí je to 399 možností, které je potřeba prohledat či nějak více či méně úspěšně predikovat a zpětně ověřovat zda byla predikce správná, to vše stojí hromadu tranzistorů a spotřeby). AMD se zatím s pomocí sofistikovaných prediktorů a masivní microOp cache dostalo na 4 dekodované instr/takt, Intel za příšerné spotřeby na 6 instr/takt. Apple M2 umí 8 intr/takt, nový Cortex X4 dokonce stanovil světový rekord: 10 instr/takt. X4 má mít IPC o 33% větší než Zen 4. A nepotřebuje k tomu žádné prediktory ani žravou microOP cache. Chceš 10. instrukci? TZačíná na 40 bajtu, protože každá ARM instrukce má prostě fixní délku 4 bajty.
Odpovědět1 0