reklama
Recenze  |  Aktuality  |  Články
Doporučení  |  Diskuze
Grafické karty
Chlazení a skříně
Ostatní
Periférie
Procesory
Storage a RAM
Základní desky
O nás  |  Napište nám
Facebook  |  Twitter
Digimanie  |  TV Freak
Svět mobilně  |  Svět audia
12.9.2023, Milan Šurkala, aktualita
MediaTek připravuje nový mobilní procesor Dimensity 9300. Jak se ale zdá, s výkonnostním cílem pro nový procesor to docela přehnala a výsledkem je, že se procesor příliš přehřívá a stanovených výkonů nedosahuje.
del42sa (230) | 15.9.20237:35
divím se upřímně každému, kdo s tím pošukem Son_of_the_bit ztrácí čas ....

OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 15.9.202311:36
Když mám čas, někdy mne to baví.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 16.9.202313:34
Copak del42sa? Koukám že na jiném webu vedeš pod články ­"sofistikované diskuse­" o odpovídající chovancovi jedličkova ústavu = tady na SHW ti holt pšenka nepokvete :DDD
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Bison (731) | 12.9.202311:06
MediaTek priniesol na trh mobilný plnotučný 4 jadrový procesor ktorý má jediný problém a to vysokú spotrebu, ARM architektúra tak ukazuje svoje skutočné prednosti, kto chce výkon ARM potrebuje veľkú batériu a veľký chladič a je po mobilnom zariadení. Príbeh o nízkej spotrebe a vysokom výkone nám trošku zhorkol.
OdpovědětKvalita příspěvku:  dobrá(3)  nízká(1)
Son_of_the_bit (392) | 12.9.202311:41
Vysoká spotřeba u mobilu je třeba 1 W navíc. Pokud mobil typicky má 5 W TDP tak 6W už bude způsobovat throttling a přehřívání.

Taková AMD zvedla TDP z 125W ­(Zen 3­) na pěkných 170W ­(Zen 4­). Jo to je úplnej vzor úspornosti :D

Bratrstvo kočičí pracy z DDiitu furt trolí jak jsou AMD CPU efektivnější jak Apple M1.... a já pořád čekám kdy AMD a Intel konečně začnou dělat CPU do mobilních telefonů. Že by něměli zájem o 409 miliard USD z mobilního trhu? Přece jenom je to 5x víc peněz než jsou ze serverů. Že by byli tak hloupí a nešáhli si pro easy money? Minimálně Intel si pamatuje jak dostal pres prsty když se snažil nacpat x86 do mobilů a pak ještě jednou si sám nafackoval když se snažil postavit výpočetní GPU na x86 ­(aneb Larrabee­).

Naposled si AMD spálila pracky když dodala mobilní GPU pro Samsung Exynos 2200 a byl z toho z hlediska spotřeby nejhorší mobilní SoC na trhu a chudák Samsung byl nucen komplet zrušit výrobu Exunosů přejít na Snapdragony od Qualcommu protože Exynos 2200 se nedal použít ani pro sekundární trhy mimo USA. Takže AMD neumí udělat ani úsporné GPU, natož aby vykonaly zázrak a udělali úsporné CPU na instrukční sadě z roku 1978 která už z principu nemůže být nikdy úsporná ­(aneb CISC­-to­-RISC překlad uvnitř každého moderního x86 CPU­).
OdpovědětKvalita příspěvku:  dobrá(1)  nízká(6)
kutil05 (560) | 12.9.202319:33
Jsou různé kategorie úsporných CPU. Úsporný procesor znamená něco jiné v mobilu, desktopu či serveru. V desktopu je důležitý jednovláknový výkon do 8 až 16 jader což je hi­-end, v serveru je dnes 16 jader low­-end. A od toho se odvíjí odlišné takty a porce energie na jádro.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 13.9.20237:26
Všera odhalený iPhone 15 Pro umí HW raytracing, dostal více GPU jader ­(5­->6­) a umí upscaling pomocí NPU jednotky ­(obdoba Nvidia DLSS­), to je naprostá paráda.

AAA gaming na iPhonu 15 Pro, běží na tom nejnovější Assasin Creed, Resident Evil atd. a kupa čistě konzolových ­(PS5 a XBSX­) her. On totiž procesorově ten iPhone 15 Pro má dosahovat minimálně 2800 pts v GB6 ST, což je jako Zen 4 na 6 GHz. V all core loadu pak 7500 ­- 8000 pts GB6 MT, což už vydrtí desktopové 8­-jádrové Zen 1 a v podstatě vyrovná desktopové Zen 2 Ryzen 3700X 8­-jádra­/16­-vlákna. A co má PS5 a XBSX za CPU? Přece 8c­/16t Zen 2, navíc ořezaný o FPU výkon. Takže iPhone teď má větší CPU výkon jak last gen konzole.

Co se týče grafického výkonu, tak iPhone 14 Pro měl 2 TFlops ­(což je víc jak PS4 se 1.8 TFlops­).
Takže iPhone 15 Pro když má 20% víc výpočetních jednotek, tak bude dosahovat min 2.4 TFlops, cca 10% hodí vylepšená architektura takže zhruba 2.6 TFlops ­(PS5 má 10 TFlops­). Jenže HW raytracing je 4x rychlejší než SW raytracing ­(a PS5 neumí HW raytracing­) plus DLSS upscaling taky zvyšuje výkon cca 2x..... a najednou iPhone 15 Pro v moderních AAA titulech bude dávat dost podobný výkon jako nenažrané konzole od AMD ­(PS5 a XBSX­).

Apple rozjel AAA gaming na iPhone, což znamená že teď bude dostupná většina AAA titulů i pro notebooky a desktopy s M3 ARMy Přičemž se dá předpokládat že MS taky začne tlačit aby AAA gamesy jely na Windsown 11 for ARM, takže tu máme lavinový efekt. A to je smrt pro ten hnusnej monopolní zmetek, kterej už v roce vzniku 1978 byl zaostalá sračka ­(x86­).

­- Apple M3 .............. 6 TFlop­/12 TFlop a bude výkonově drtit konzole se 10 TFlop
­- Apple M3 Pro ...... 12­/24 Tflop už bude drtit NV 3070 Ti se 22 TFlop
­- Apple M3 Max ..... 24­/48 Tflop už posvačí 3090 Ti se 40 TFLop
­- Apple M3 Ultra ..... 48­/96 Tflop už bude konkurovat 4090
­- M3 Extreme .......... 96­/192 Tflop bude 2x výkonnější jak 4090 a bude konkurovat 5090, která vyjde bůhvíkdy
OdpovědětKvalita příspěvku:  dobrá(1)  nízká(4)
kutil05 (560) | 13.9.20238:19
Rozbor toho výkonu jsem četl a víceméně u té grafiky odpovídá nárůstu počtu jednotek. U CPU nikdo neví, protože Apple podrobnější popis jádra neuveřejnilo. A ten RT není moc s čím srovnat, napsali jen, že doposud u Apple jel RT na shaderech a nyní má své jednotky a měl by být 4x rychlejší. Ale co vím, nikdo jiný RT na telefonech nemá, takže moc není s čím srovnávat.
Z logiky věci herní grafiky jsou násobně efektivnější než CPU a přotom si berou desítky a stovky Wattů, takže telefon nemůže být výkonnější než desktop i než NTB běžné konstrukce, nemá na to dost energie, ani by se neuchladil.
OdpovědětKvalita příspěvku:  dobrá(1)  nízká(0)
Son_of_the_bit (392) | 13.9.20239:22
Dobře, pojďme to srovnat:
- AMD Ryzen 7730U s TDP 15W ......... ST 1680 pts ........ MT 6639 pts
- Apple iPhone 14 Pro TDP 5 W .......... ST 2519 pts ......... MT 6382 pts


https:­­/­­/browser.geekbench.com­­/processors­­/amd­­-ryzen­­-7­­-7730u
https:­­/­­/browser.geekbench.com­­/ios_devices­­/iphone­­-14­­-pro


Výsledek je, že iPhone výkonově drtí to nejlepší co x86 umí nasadit do TDP 15W ultrabooků ­(AMD Ryzen 7730U­). iPhone 15 má MT přeš 7000 pts, a ten výkon dosahuje při 4­-5W TDP.

Nyní uvidíme AAA herní tituly na Applích ARMech a velmi brzy i na ARM Linuxu a ARM Windowsech. Paráda. x86 je mrtvá.
OdpovědětKvalita příspěvku:  dobrá(1)  nízká(2)
kutil05 (560) | 13.9.20238:22
A co se týká těch M3 už ten základ je vycucaný z prstu, zatím nikdo mimo Apple, neví, jaký bude mít výkon a ten zbytek automaticky počítá se stejnými takty a 100 % škálování, což se nikdy neděje a vícejádrové CPU ani nemají stejné takty, pokud mají třeba 4x a víc jader. Takže možná tak vlhký sen.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 13.9.20238:43
"Taková AMD zvedla TDP z 125W ­­(Zen 3­­) na pěkných 170W ­­(Zen 4­­). Jo to je úplnej vzor úspornosti :D­" Bylo by taky fajn porovnat to s nárůstem výkonu. Jinak mlátíš prázdnou slámu.

AMD Ryzen™ 9 7950X­-16 ­/ 32­-Up to 5.7GHz­/4.5GHz­-170W­-DDR5­-5.2GHz­(6.0GHz­)
AMD Ryzen™ 9 5950X­-16 ­/ 32­-Up to 4.9GHz­/3.4GHz­-105W­-DDR4­-3.2GHz

už jen na pouhých základních taktech 1,32x větší MT výkon ­- na ST díky turbu 1,163x a propustnost 1,625x ­(5,2 GHz­) nebo 1,875x. To jsou solidní nárůsty. Reálně v tom není započítané IPC nebo AVX512.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Tech-boy.lukas (1060) | 12.9.20239:32
dle ­"Son_of_the_bit­" revoluční army, tento stale throttluje aby dal šanci už prehistorickým x86 cpu 🤣
OdpovědětKvalita příspěvku:  dobrá(2)  nízká(2)
Son_of_the_bit (392) | 12.9.202310:19
Mediatek 9300 throttluje, protože jeho CPU, GPU a NPU má celkově vyšší spotřebu než tradičních 5W. No to je tragédie že si 8­-jádro ARM vezme dokonce 7W.

Myslím že by okamžitě měli přejít na x86, kde 8­-jádro Ryzen 7800X si vezme bežně přes 120W. Takový telefon s x86 Ryzenem by se dal používat jako plotýnkový vařič :D

Teď vážně. 4x Cortex X4 v telefonu je masakr ­(8xALU+3xBranch s IPC o 31% vyšším jak Zen 4­). To spíš odpovídá nějakému čipu pro NTB nebo tablety. Při frekvenci 3.5 GHz ta X4 bude dávat 2200 pts v Geekbench 6, což 4x 2200 = 8 800 pts.

K tomu 4x Cortex A720 ­(4xALU+2xBranch­), což sice střední jádro, ale má to větší IPC jak starý hi­-end A77, nebo­-li IPC nad AMD Zen 2 a někde blízko AMD Zen 3. Samozřejmě je to malé a extrémně úsporné ­(spotřeba cca 700 mW při 2.4 GHz a 3nm­). Tahle A720 na 2.8 GHz dá zhruba 1100 pts GB6, takže 4x 1100 =4400 pts.

Celkem 13 200 pts v GB6 což vydrtí i 6­-jádrový Ryzen 7600 se spotřebou přes 100W. Dobrý no, mobil bude drtit předražené x86 desktopy. Mediatek se zřejmě rozhodl zaútočit na Apple a překonat jej v MT.
_
BTW:
8­-jádro Zen 2 Ryzen 3700X ..... ST 1 132 pts ........ MT 5 843 pts
8­-jádro Zen 2 Ryzen 3700X ..... ST 1 639 pts ....... MT 8 101 pts
8­-jádro Zen 2 Ryzen 3700X ..... ST 2 163 pts ........MT 10 304 pts
8­-jádro Zen 2 Ryzen 3700X ..... ST 2 708 pts ...... MT 15 189 pts

https:­/­/browser.geekbench.com­/processors­/amd­-ryzen­-7­-1800x
https:­/­/browser.geekbench.com­/processors­/amd­-ryzen­-7­-3700x
https:­/­/browser.geekbench.com­/processors­/amd­-ryzen­-7­-5800x
https:­/­/browser.geekbench.com­/processors­/amd­-ryzen­-7­-7800x3d


Z čehož plyne že mobilní telefon výkonově vydrtí desktopové 8­-jádra Zen 3 a to včetně MT i jednovláknového ST výkonu. Masakr a konec x86. To musí vidět všichni co mají oči a alespoň tři zbývající mozkové buňky nespálené nadměrnou konzumací kari.
OdpovědětKvalita příspěvku:  dobrá(1)  nízká(12)
Milan Šurkala (3958) | 12.9.202310:54
Ale no tak, bavíme se tu o mobilních CPU a Vy vytáhnete desktopový 7800X? Co tak vzít mobilní 8jádro? 8jádrový Ryzen 7 7730U má např. 15W TDP.
OdpovědětKvalita příspěvku:  dobrá(6)  nízká(0)
Pavel Matějka (1466) | 12.9.202311:44
Dělají se i 6W x86 procesory, pardon, SoC.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 12.9.202312:14
Intel Atom N200, parodie na procesor co má TDP 6W:
­- 4c­/4t ..... ST 1041 ........ MT 1966

Aneb typická ukázka x86 v praxi: 2x až 2,5x horší výkon x86 při o 20% vyšší spotřebě ­(oproti ARM­).
Tenhle Inteláckej zmetek by v úspornosti vyklepnul i Didaktik M.

https:­/­/browser.geekbench.com­/v6­/cpu­/2186006
OdpovědětKvalita příspěvku:  dobrá(1)  nízká(4)
Son_of_the_bit (392) | 12.9.202311:58
Dobře, pojďme to srovnat:
- AMD Ryzen 7730U s TDP 15W ......... ST 1680 pts ........ MT 6639 pts
- Apple iPhone 14 Pro TDP 5 W .......... ST 2519 pts ......... MT 6382 pts


Takže výsledek........... iPhone při 3x nižší spotřebě dá v ST neskutečnej výprask NTB s 8­-jádrem, přičemž MT prohraje jen o prsa korejky.

A to pominu fakt, že Ryzen je 8­-jádro a má 16 vláken, kdežto ten iPhone má jen 2x velký jádra a jen 4x malé, tedy 6­-jádro bez SMT ­(pouhých 6 vláken­). Každopádně dnes odhalený iPhone 15 už dá tomuhle Ryzenu naprdel i v MT, takže zesměšnění x86 je jisté. Otázka je jen jak bude velké.

A letošní Androidí Samsung S23 dá naprdel v ST tomu Ryzenu taky:
­- Samsung S23 ...... GB6 ST 1878 pts ............. MT 4973 pts


https:­/­/browser.geekbench.com­/processors­/amd­-ryzen­-7­-7730u
https:­/­/browser.geekbench.com­/ios_devices­/iphone­-14­-pro

https:­/­/browser.geekbench.com­/android_devices­/samsung­-galaxy­-s23­-ultra
OdpovědětKvalita příspěvku:  dobrá(1)  nízká(6)
Milan Šurkala (3958) | 12.9.202312:15
To, co jste napsal, je sice hezké, ale vůbec neřeší to, na co jsem narážel.

Jsem tu vedle Vás asi jediný, kdo si myslí, že ARM to nakonec vyhraje i v desktopové oblasti. Nicméně kvůli tomu nebudu proti mobilnímu ARMu stavět 120W x86. O to mi jde. Já neříkám, že je x86 lepší, ale jen to, že je blbost stavět srovnání x86 vs ARM na srovnávání mobilního a desktopového 120W procesoru, aby to vyšlo záměrně ještě mnohem hůř, než jak to ve skutečnosti je.
OdpovědětKvalita příspěvku:  dobrá(5)  nízká(0)
Son_of_the_bit (392) | 12.9.202314:05
Co se vám zase nelíbí?

Nelíbí se vám výsledky 15W Ryzenu 7730U, který jste sám navrhoval jako férové srovnání? Hele za to může fyzika, CPU co je dělaný na 100W prostě omezením na 15W nemůže logicky podávat stejný výkon jako na těch 100W kdy dosahuje daleko vyšších frekvencí. To je prostě drsná realita kdy nejlepší x86 15W TDP procák dostane nakládačku od mobilního telefonu.

Já nemůžu za to, že AMD a Intel díky zaostalé x86 dělají jen žravé křápy.
To je snad každému středoškolákovi jasné, že když všechny moderní CPU jsou vnitřně RISC, tak ta HW emulace CISC instrukční sady x86 prostě bude stát navíc tranzistory, spotřebu, peníze a vývoj navíc, zbytečné komplikace atd.

Pročpak asi ARM u vývoje 64­-bit ARMv8 se rozhodl zahodit zpětnou kompatibilitu a vyvinul pro 64­-bit úplně jinou instrukční sadu, která nemá s tou původní ARMv7 skoro nic společného? Protože na ISA setsakramentsky záleží.
OdpovědětKvalita příspěvku:  dobrá(1)  nízká(6)
Milan Šurkala (3958) | 12.9.202314:16
Co se mi nelíbí? Že jste si do srovnání vzal 120W desktopový Ryzen a ne mobilní 15W. Výsledky 15W Ryzenu vůči ARMu tady vůbec neřeším. Je úplně jedno, zda je horší nebo lepší než ARM, o to tady v diskuzi vůbec nejde. Jediné, co se mi nelíbí, je to, až abyste podpořil Váš oblíbený ARM, tak jste mobilnímu procesoru předhodil do srovnání desktopový Ryzen a ne aspoň trochu adekvátní mobilní verzi. Ty tři odstavce jste napsal úplně zbytečně, protože se vůbec netýkají toho, o co mi šlo :­-)
OdpovědětKvalita příspěvku:  dobrá(2)  nízká(0)
Son_of_the_bit (392) | 12.9.202314:49
Vám přijde normální že mobilní telefon v ST výkonu vydrtí 3 roky starý Zen 3 desktop CPU co boostuje na 5 GHz? Mě to přijde naopak velmi neobvyklé a zajímavé srovnání.


BTW Nemám žádnou oblíbenou ISA. Mě je úplně jedno jestli ta lepší ISA se jmenuje ARM, RISC­-V nebo třeba Karel­-G. Nebudu přece zbožňovat x86 když objektivně a technicky vzato je to sračka co tady už nejmíň 20 let nemá co dělat.
OdpovědětKvalita příspěvku:  dobrá(1)  nízká(7)
Pavel Matějka (1466) | 13.9.20236:34
Ten váš ARM miláček skončí možná stejně s x86, tedy správněji amd64. Zvyšování cen ARM licencí a USA sankce nutí spoustu firem k urychlení vývoje RISC­-V. Třeba se do toho teď opravdu opřou, co my víme...
OdpovědětKvalita příspěvku:  dobrá(1)  nízká(0)
Son_of_the_bit (392) | 13.9.20237:45
Já jsem především fanoušek Jima Kellera, takže čekám na jeho RISC­-V procák Ascalon se 6xALU. Díky tomuto tlaku ze strany RISC­-V bude donucen celý ARM ekosystém zůstat low­-margin tam kde je.

Otázka jestli kupovat akcie ARMu, který dnes vstupuje na burzu ­(IPO­). Vydělávat sice moc nebude, ale zase bude masivně růst ­(x86 chcípne­), takže jeho akcie porostou ­(ale dost možná až po skončení recese která nás čeká­). Každopádně to vypadá že nakonec dobro ­(RISC­) zvítězí nad zlem ­(CISC­). Sice se zpožděním 20 let, ale i tak je to dobře.
OdpovědětKvalita příspěvku:  dobrá(1)  nízká(1)
kutil05 (560) | 13.9.20238:49
Prostě ARM i x86­-64 jsou doma někde jinde a z toho důvodu moc nejde je přímo porovnávat. Za stejných podmínek tedy tentýž ale optimalizovaný a překompilovaný SW na míru a při stejné porci energie už by něco srovnat šlo. Ale ne jiné světy. To je jako srovnávat kamion a závodní auto jen proto, že mají stejných 500 koní výkonu. Ale reálně ho podají úplně jinak. Kamion není tak rychlý, ale utáhne desítky tun nákladu. A tady to je stejné.
OdpovědětKvalita příspěvku:  dobrá(2)  nízká(0)
Son_of_the_bit (392) | 13.9.20239:46
Ty hloupé přirovnání x86 vs ARM ke kamionu a závodnímu autu. To je spíš server ­(kamion­) a závodní auto ­(desktop­).

X86 vs. ARM je něco jako typ pohonu­/motoru:
­- CISC x86 je něco jako parní lokomotiva ­- ve své době super, ale s účinností 5% je to dnes naprostý nesmysl provozovat.
­- RISC ARM je něco jako TDI ­- účinost 40%, spotřeba 3,8 litru v Tiguanu 4x4, naprostá paráda

Technicky vzato každý x86 CPU od Pentium PRO a AMD K5 jsou vnitřně RISC jádra co ten odpornej a zastaralej x86 CISC musí HW emulovat, aneb překládat CISC instrukce do RISCových microOps. Tohle ví každej středoškolák. Každému kdo má IQ větší než 70 musí dojít, že ten CISC balast komplikuje vývoj, stojí hromadu tranzistorů a ty navíc zvyšují spotřebu. CISC je zlo co mělo být už 20 let v muzeu.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(3)
kutil05 (560) | 13.9.202310:00
Až na to že tyto rozdíly se dávno setrřely od chvíle, kdy dekodér mikroinstukcí mají i RISC procesory, tak šup hezky zas do školy. Možná jen to srovnání bych trochu změnil protože je vidět, že ani ARM v serverech neumí totéž co zavedené x86­-64. ARM se ty velké turbodiesely snaží nahradit větším počtem menších. Ale neumí je dobře spojit. To co jim v mobilech při 8 jádrech funguje se v 64. a více jádrech dusí a nedokáže ten teoretický výkon ukázat.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 13.9.202310:17
Tys asi ve škole chyběl když probíral rozdíl mezi dekodéry CISC­-to­-mOPs a RISC­-to­-mOPs. To se pak není čemu divit že ti chybí základní znalosti :D

Zkus tedy vysvětlit, ty setřenej rozdíle, jak dekoduješ 10 x86 instrukcí za takt, když každá x86 instrukce muže mít 1­-15 bajtů. To je nějakých 640 kombinací kde ty instrukce můžou začínat, a pro 20 instrukcí už je to 2680 kombinací. Třeba takovej ARM nebo RISC­-V na tohle nepotřebuje žádné tranzistory, prostě si sáhne na 20. instrukci která leží přesně na 20x 4 bajtu v paměti.

Neboj, já ti to chybějící středoškolské vzdělání doplním a vysvětlím :D
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(2)
kutil05 (560) | 13.9.202311:00
Já tam jasně vidím toto: 2x ALU
ALU, MUL, DIV, CRC
FADD, FMA, INT vec ALU, INT vec MUL, convert
FADD, FMA, INT vec ALU, crypto

https:­/­/i0.wp.com­/chipsandcheese.com­/wp­-content­/uploads­/2021­/10­/neoverse_n1.drawio1.png?ssl=1

A to hodnocení, které jsem jen převzal, najdu taky.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 13.9.202311:35
INT vector ALU ......... není to samé jako skalární ALU

1­) používá to jiné registry. Místo GP skalárních INT registrů, které má každý CPU včetně Z80 v Didaktiku Gama, tak pro FP­/SIMD používáš vektorové registry ­(které jsou širší aby se tam vlezl ten 128­-bit NEON vektor­). FPU byla jak známo v separátních čipech viz 8087, 287, 387.

x86 je ještě víc nahovno, protože má 80­-bit FPU registry ­(těch má 8 a používají se i pro MMX instrukce­) a zvlášť má SIMD registry pro SSE­/AVX ­(těch má 8 v 32­-bit, ale v 64­-bit AMD64 jich má 16­). A aby v tom intel udělal ještě větší bordel, tak AVX512 má 32 registrů SIMD. ARMv8 má prostě 32x INT skalárních GP registrů a 32x FPU­/SIMD registrů a hotovo ­(tohle rozložení kopíruje HW mikroarchitekturu ­(separátní schedullery pro INT skalár a SIMD­), takže to minimalizuje počet tranzistorů pro implementaci ARMu­).

2­) máš latenci kvůli přesunu dat z GP registrů ­(INT skalár­) do SIMD registrů ­(INT­/FPU vektor­). A to jak nutností použití instrukce MOV, tak i fyzicky jsou v CPU jinde. Teoreticky sice v assembleru můžeš využít ty ALU jednotky v SIMD, ale prakticky to bude násobně pomalejší. OoO engine umí spekulativně vykonávat instrukce pouze na skalárních INT GP registrech a to z důvodu latencí ­(čím dříve máš výpočet hotový tak tím dříve jádro ví zda spekulace byla úspěšná a uvolnit zdroje­). Zatím pokud vím neexistuje CPU co by uměl využít INT vec ALU pro skalární INT idkyž teoreticky by to šlo. Prakticky je jednodušší přidat skalární ALU jednotky.

Tebe na střední neučili programovat v assembleru a v Pascalu?
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(1)
kutil05 (560) | 13.9.202312:02
Oborem jsem mechanik elektronik pro číslicové a řídící sytémy. Hned po střední jsem klusal do práce, takže nic víc. Maximum co nás zkoušeli naučit, byly základy Basicu. Víc o CPU už je čistě můj osobní zájem.
K těm registrům, mám pocit, že přesun dat by nestačil, FPU ­/ vektorová část má své dekodéry.
A poznámka, ještě jinak to mají Power procesry, tam každé vlákno má skalární ­- ALU, binární FPU, dekadickou FPU. Pak vektory ­- Altivec a nově Power 10 matice. Plus sdílené akcelerátory pro kompresi a šifrování.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 13.9.202312:16
Takže assembler neumíš, ale budeš mě poučovat že nestačí přesun dat mezi registry, no to je teda jízda. Co bereš za drogy? :D

Doháje, tak si kup za 200 Kč PIC MCU nebo Arduino a nauč se za týden dělat zákady v assembleru. Naučit se 10 základních instrukcí zvládne i malé děcko na střední škole.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(2)
kutil05 (560) | 13.9.202312:46
To o drogách sis mohl odpustit. Já bych tě třeba zas mohl školit v jiných věcech. Píšu, jak vím a nebo si myslím, jak to je. Dekodéry jsou sice společné, ale mezi dekodéry a přímo výkonnými jednotkami je přece ještě Dispatch. A pokud by se přehazovaly data, tak jak se tam dostanou ty instrukce? Teď se prostě ptám.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 16.9.202312:56
Pokud neumíš základy ve strojním kódu ­(pár záladních instrukcí, load z paměti, výpočet, podmíněný skok, store výsledku do paměti, call­/ret, push­/pop zásobníku­), tak nikdy nepochopíš jak funguje uvnitř in­-order CPU.

No a pokud nerozumíš funkci in­-order CPU tak nikdy nepochopíš OoO.

To je jako kdybys chtěl porozumět goniometrickým funkcím, ale přitom nevěděl co to je sčítání a odčítání. Říká se tomu prerekvizita.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 16.9.202314:36
Prázdné poučování je určitě snadnější. A jen doplním, že mne to nezajímá z pohledu programátora, ale jak to proběhne uvnitř toho procesoru. Ale určitě zas nepíšeš něco, nač jsem se neptal místo přímé odpovědi.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 16.9.202322:52
Mě osobně nejvíc pomohlo si oživit assembler a pak videa na YT od Ben Eater, kde si sám navrhnul vlastní instrukční sadu a k tomu si postavil vlastní 8­-bit CPU. To ti asi nejvíc otevře oči, protože zjistíš, že navrhnout si vlastní instrukce včetně jejich binárního OP kódu není zase tak složité jak to vypadá. Ostatně každej správnej CPU nadšenec si umí vytvořit vlastní intrukční sadu a vlastní CPU.

Třeba já osobně jsem si vytvořil vlastní RISC sadu s kodovým názvem Beta ­(navazuje na DEC Alpha­) a je to poměrně revoluční implementace RISCu, něco jako RISC 2.0 s kompletně předělanou adresací dat. A momentálně pracuji na revoluční ISA Gama což je post­-RISC šílenost, kde nejsou instrukce uloženy lineárně za sebou, ale stejně jako u AI jsou v uspořádány v 3D matici jako neurony. Gama už nemá s RISC prakticky nic společného, já tomu říkám Xenomorph­-Instruction­-Set­-Computer, tedy XISC aneb zcela nový typ CPU. Gama umí jak CPU, tak i GPU a NPU instrukce, takže je to spíš XPU.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 13.9.202312:08
Dnes i tak dekodéry procentuálně tolik plochy nezabírají protože. Vektorová část je stále širší, jsou tam jednotky pro změny pořadí instrukcí, velké cache, nepočítám do toho řadiče sběrnic. Jak se celý CPU chiplet z hlediska počtu tranzistorů zvětšuje je zrovna dekodér stále menší žrout energie. Ale chápu, že to je oblíbená mantra RISC fanatiků.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 16.9.202314:31
Největší RISC fanatici jsou v AMD a Intelu, protože už od 1996 jsou všechny x86 vnitřně RISC :D

Dekodéry a prefetch zabírají obrovskou plochu jádra, zvlášť u x86, které musí spekulovat a predikovat proměnlivou délku instrukcí té zastaralé x86 z roku 1978. Jenže v té době vykonání jedné instrukce na i8088 trvalo 15 taktů, takže variabilní kodování nebyl problém, narozdíl odedneška. Dekodéry x86 musí umět dekodovat několik přefixů a několik postfixů každé x86 instrukce, naprosté peklo.

Ale můžu to tady vysvětlovat třeba 100x, stejně stupita pokaždé zvítězí. By mne zajímalo jestli ten profesor z MIT co přednáší tu exponenciální explozi u CISC variabilního kodování, se taky potýká se stejnou stupiditou u zkoušek těch studentů MIT. Pochybuju. Žel tady nejsme na MIT.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 16.9.202314:42
Aha a poměr plochy dekodérů a prefetch vůči výkonným jednotkám se od té doby nijak nezměnil.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 17.9.202313:23
Naopak poměr decode+prefetch narostl naprosto giganticky oproti výpočetním ALU jednotkám. To souvisí s tím co jsem napsal výše. Zejména x86 platí velkou daň za obcházení toho variabilního kodování ­(x86 se bez energeticky nenažrané microOP cache vůbec neobejde­). Kdežto dekodování ARM instrukcí je tak jednoduché a energeticky úsporné, že se jim zřavá microOP cache ani nevyplatí implementovat. Nemá ji ani Apple ani nový X4. Cortexy zavedly mOP cache u A77 a dále ji měly X1, X2, X3 ­(není náhoda že právě tyto jádra se potýkali s přehříváním a poklesem frekvencí­). A76 šla až na 3,1 GHz v době kdy Apple A12 měl jen 2,5 GHz, tedy 600 MHz výhoda. Dnes Apple A17 dosahuje 3,77 GHz kdežto X3 s horším IPC se šmrdlá někde na 3,4 GHz.

Jako pořád má X3 o 20% vyšší IPC jak Zen 4 a násobně lepší efektivitu než cokoliv ze světa x86, ale to ukazuje že Apple má brutální náskok zejména v efektivnosti jader, Stačí se podívat na změřená data:
https:­/­/forums.anandtech.com­/proxy.php?image=https%3A%2F%2Fimages.anandtech.co­m%2Fdoci%2F16983%2FSPECint­-energy.png&hash=9b0de4a6bda0e483ddd3125d599375e­a
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 17.9.202315:11
Víš že jsi poslal nefunkční odkaz?
https:­­/­­/forums.anandtech.com­­/proxy.php?image=https%3A%2F%2Fimages.anandte­ch.co­m%2Fdoci%2F16983%2FSPECint­­-energy.png&hash=9b0de4a6bda0e483ddd3125d599375e­­a
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 18.9.202312:52
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 13.9.20238:35
Hezké srovnávat ALU jednotky a takty. Jenže v CPU jsou i FPU ­/ vektorové jednotky a v těch má ZEN4 těžce navrch + takty které žádný ARM ještě neměl. ARM je efektivní, má­-li vyladěný SW. Ale to je vše. Četl jsem celé obsáhlé recenze Aplere Altra, což jsou ARM Neoverse N1 ­- tedy 5 ALU na jádro, jenže pouze 2x 128 bit vektory a zabili to malou L3 která má pro 64 a 80 Q verze 32 MB tedy 0,5 a 0,4 MB na jádro a pro M 96 a 128 jader pouze 16 MB tedy 0,1666 a 0,125 na jádro. Cože je komické, když obě varianty mají 2 MB L2 na jádro tedy víc než kolik vychází L3. A to ten výkon zabilo. Kde se víc počítá a méně přenáší data, umí to ZEN 2 EPYC 64 jader porazit. Pokud ale jsou třeba datové toky, je to přesně naopak. Ta architektura ja tak na 32 jader na taktu řekneme 3,5 GHz, tam by to výkon mělo lepší a využitelný. Ale 32 jádrová varianta ­(je na tom nejlíp z hlediska L3 i RAM­) má jediné provedení 1,7 GHz. Procesor k doplnění ceníku asi, jinak nanic. Celý potenciál promrhali blbě organizovanou cache. A 96 a 128 jádrové verze úplně postrádají smysl. Ten výkon je použitelný jen na cloud, ale na HTPC se nehodí, tam doslova jádra navíc překáží.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 13.9.202310:07
Ty seš komik.
1­) ARM Neoverse N1 nemá 5x ALU, ale má 3xALU+1x Branch
­- možná si to pleteš s ARM Neoverse V1, která má 4xALU + 2xBranch
­- nebo s V2 která má 6xALU+2xBranch
­- jediné jádro co má 5x ALU je Intel Golden Cove, ale to není ARM
­- nebo počítání do deseti je na tebe příliš těžká záležitost :D

2­) L3 cache není v serverech až tak důležitá. L3 cache je pro sdílení dat mezi jádry a to při 128­-jádrech CPU a třeba 32 klientech ­(každý si pronajme 4 jádra pro svoji virtuálku­) takové sdílení dat odpadá ­(naopak je třeba izolovat­). Takže tyto cloud servery těží z velké privátní L2 cache.

3­) Prej malá L3 cache zabila výkon :D Jo a proto 64­-jádrovej Graviton 3 dává těžce naprdel 64­-jádrovému AMD EPYC, nebo 128­-jádrová ARM Ampere Altra dává naprdel 64c­/128t AMD Epycu.

4­) Prej slabé FPU­/SIMD jednotky :D ARM má naprosto nejdokonalejší SIMD instrukce na světě, revoluční SVE umožňující masivní 2048­-bit vektory­/registry. x86 je tragicky zaostalá na 512­-bit, přičemž stejně Intel i AMD to vnitřně rozkládají na 256­-bit. Proto Japonci postavili čistě CPU­-only superpočítač na ARM procesorech a SVE instrukcích. ARM Fujitsu A64FX je v super počítači Fugaku, což je druhý nejvýkonější superpočítač na světě. Žádný superpočítač čistě na x86 neexistuje, pročpak asi? :D
OdpovědětKvalita příspěvku:  dobrá(1)  nízká(1)
Milan Šurkala (3958) | 13.9.202310:23
"Celý potenciál promrhali blbě organizovanou cache. A 96 a 128 jádrové verze úplně postrádají smysl. Ten výkon je použitelný jen na cloud, ale na HTPC se nehodí, tam doslova jádra navíc překáží.­"

Proč postrádají smysl? Tak to je snad o tom určení, ne? Ono se to musí kvůli vysokému počtu jader hodit na HPC? Pokud je to procesor určený pro cloud, a svou cloudovou funkci plní dobře ­(hodně jader pro VM, nízká spotřeba­), tak byl úkol splněn velmi dobře.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 13.9.202310:58
Proto ARM dělá 3 druhy jader dle SIMD výkonu:

1­) Neoverse V2 se 4x 128­-bit SVE2 pro HPC
2­) Neoverse V2 se 2x 128­-bit SVE2 pro high­-response cloud
3­) Neoverse N2 se 2x 128­-bit SVE2 pro streaming a non­-critical cloud

Ono i ta N2, což je Cortex A715 s IPC mezi AMD Zen 2 a 3, není rozhodně nic pomalého ­(přičemž spotřeba je ve stovkách mW­),
Graviton 3 je ve dvou verzích 1­) a 2­) přičemž Amazon začal jako první osazovat tu slabší verzi ­(je menší a lehčí na odladění výroby, vyšší výtěžnost­).

Otázka je kde je Graviton 4, přece jen Nvidia Grace s jádrem V2 na 4nm se už dávno dodává a G4 s V2 jádry zatím nikde. Možná ladí 3nm výrobu. Ostatně G3 taky byl první serveorvý CPU na 5nm TSMC skoro rok před AMD Zen 4. S G4 na 3nm předběhnou AMD Zen 5 opět o rok.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(2)
kutil05 (560) | 13.9.202311:18
Ty stovky mW jsou hodně relativní. U toho Altra Q80­-33 máte 80 jader na 3,3 GHz a TDP 250 W. Dělit umíte, že?
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 13.9.202311:49
Co by za takovou spotřebu AMD dalo, ti museli udělat nový socket pro 450W TDP aby mohli jít na 96­-jader s Epycem.

80­-jádrová Altra = 3.1 W­/jádro
128­-jádrová Altra = 1,9 W­/jádro
64­-jádrový Graviton 2 = 1,5 W­/jádro ­(100W TDP, 3x socket board má 300W TDP, frekvence fixní 2.4GHz­)

Jinak A76­/N1 tohle jádro má na 2 GHz a 7nm TSMC opravdu 750 mW, uvádí to i ARM v ofiko dokumentaci. To je spotřeba čistě jádra, bez řadičů a pamětí. Na obrázku v levo dole:
https:­/­/images.anandtech.com­/doci­/12785­/5.PNG
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(1)
kutil05 (560) | 13.9.202312:10
A jak jsi přišel na 450 W? TDP 400 W má jediná verze a další má 360 W. Žádná deska oficiálně víc jak 400 W CPU neumí.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 13.9.202312:28
Ten socket SP5 je dělanej na 450W.
To je jak desktopový Ryzen, ten má taky ofiko 125W TDP ale pak si vezme 200W.
x86 notebook s TDP 15W si ve skutečnosti v zapojení do sítě bere 35W.

Zen 5 z toho socketu těch 450 W dostane. Až bude Zen 5 dostávat nakládačku od ARM serverů, tak to budou ždímat co jim pan James Watt dovolí.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(2)
kutil05 (560) | 13.9.202312:40
U socketu je to kvůli proudové rezevvě. Ale procesory pro desktop a ssrvery + pracovní stanice to u AMD mají jinak. U desktopu je to na základní frekvenci a turbo je výš, ale u velké patice je to maximum. Intel to má zase jinak. Aby nebyla nuda asi.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 13.9.20239:03
Když čtu architektonické změny jednotlivých generaci ARM, všímám si jedné věci. Zlepšují dekodéry, predikci ­(to asi všechny CPU obecně­) a někdy přidají ALU. Ale na FPU ­/ vektory sáhnou málokdy. Co se ale zpravida a narozdíl od x86 nebo i Fujitsu či IBM nedočtu, jsou šířky sběrnic, výkony Load­/Store jednotek a reálně se stává, že ten papírový výkon tam je jen za ideálních podmínek, ale v reálu spíš tak napůl. Ta jádra jsou úsporná, protože někde na něčem šetří a už dávno ten rozdíl v dekodérech, kterým se rádi ohání příznivci ARM ohání není tak důležitý ­- třeba 8 dekodérů ARM proti 4 u x86, nevím, o kolik může těch osm být jednodušších, aby zabraly méně tranzistorů... ARM jádro pro telefon a ARM jádro superpočítače není totéž a jeho okolí ­- cache, sběrnice a RAM už vůbec ne, to je jiný svět. Procesor aby to široké jádro využil optimálně musí takříkajíc volně dýchat, jinak se dusí a plný výkon dá jen chvilkama. A právě to rozbor Altry jasně ukázal. Na papíře by pomocí ALU Fujstsu A64FX s jeho 48 jádry na 2 GHz měla altra 64 jader na 3 GHz roztrhat. Ale v reálu se to nestane, protože A64FX má na jádro 4x256 bit vektory a tomu uzpůsobenou komunikaci po sběrnici. Altra jen 2x128 bit.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 13.9.202310:36
Fujitsu ARM A64FX nemá 4x256 jak mylně uvádíš, ale 2x512­-bit revoluční SVE. Podpora SVE je zde zásadní, protože součástí SVE jsou i volitelné instrukce pro násobení matic. To je tajemství výkonu A64FX a proč mobilní telefony s SVE2 se výkonem nepřibližují Fujitsu ­(tyto instrukce nemají implementované, zatím­). ARM pracuje na SME a SME instrukcích přímo pro násobení matic ­(mají separátní registry, tak jako má Apple implementované v jeho AMX­). To je to o čem si x86 s jeho AVX512 může zatím nechat zdát sny.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(1)
kutil05 (560) | 13.9.202310:58
Na schématech to je vždy jako 4x256 i v materiálech o tom tak Fujitsu píše.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 13.9.202311:56
Lžeš.

Fujitsu v ofiko materiálech vždycky zmiňuje 512­-bit SVE.
Na některých slidech je i přímo napsáno 2x pipe 512­-bit:
https:­/­/images.anandtech.com­/doci­/13258­/15348981301861379369328_575px.jpg
https:­/­/www.anandtech.com­/show­/13258­/hot­-chips­-2018­-fujitsu­-afx64­-arm­-core­-live­-blog

Samozřejmě je to i ve schématech mikroarchitektury ­(PFP register ­-> 2 porty FLA a FLB)
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(1)
kutil05 (560) | 13.9.202312:21
Zjevně se na svou paměť už tolik spolehnout nemůžu. Ale aspoň tu celkovou šířku 1024 jsem si pamatoval dobře. Možná jsem vycházel z toho, že jde o ARM v8.2 a fyzickou implementaci SVE už jsem neřešil.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 13.9.202312:41
Fujitsu chystá nástupce A64FX, který se bude prodávat i mimo superpočítače: Fujitsu­-Monaca.
2x efektivnější než GPU a bude to zase na ARMu. Určitě to bude používat nové SME2 instrukce pro násobení matic. Ostatně AI jede na násobení matic.

https:­/­/www.anandtech.com­/show­/18764­/fujitsu­-preps­-monaka­-datacenter­-cpu­-to­-succeed­-a64fx­-higher­-performance­-and­-more­-features

A kdepak máme nějaký vývoj na x86 scéně ohledně podpory AI? Nikde, výpočty hážou na Nvidia GPU a pak se diví že jim klesají zisky když Nvidia nahradila x86 podavače dat za pořádné ARM procáky. A hle Nvidii rekordně rostou prodeje. To je fakt masakr jak ARM mele x86. Ten pláč Lisy Su je slyšet až sem do ČR :D
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(1)
kutil05 (560) | 13.9.202312:55
Fujitsu věřím víc než Altře v tomto, ale přesto. AMD a Nvidia mají jednu obrovskou výhodu. Už desítky set se učí jak udělat efektivně multi jádrový procesor o dnes už více než desetitisíci malých jader a hlavně jak je efektivně řídit a spojit. IBM a Intel jsou u desítek jader, AMD jako jediné umí CPU 128 jader a současně i GPU. Ty zkušenosti jsou vidět. Při testu obou variant Altry se divili, jak je možné, že chipletové AMD má při komunikaci mezi jádry nižší latence než monolitická Altra. Bude to patrně tím, že AMD už to nějaký ten pátek dělá.
Fujitsu víc věřím i proto, že Aptra dělá CPU jen pro cloud, málo universální, ale Fujitsu umí jak běžné tak i superpočítačové čipy. A tam je propojení spousty jader v patici i spousty patic celkově kritické. Ale stejně nevěřím tomu, že hned na první pokus GPU překonají. AMD i Nvidia už mají druhou generaci čistě výpočetních GPU. Jen tedy AMD spíš pro HPC segment a Nvidia pro AI.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 16.9.202314:10
192­-jádrový ARM Ampere Altra One na 5nm TSMC se chystá letos na podzim. Bude mít jejich vlastní architekturu, jsou to bývalý Intel inženýři co vycítili konec x86 a utekli z Intelu.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 16.9.202314:39
Pořád ti nedošlo, že nejde jen o architekturu jader samotných ale i o jejich propojení.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 17.9.202312:54
Tobě zase nedochází, že cloud servery se pronajímají zákazníkům po 4, 8, 16 jádrech, tedy propojení všech 192­-jader není priorita. Naopak je žádoucí bezpečné oddělení dat jednotlivých zákazníků a odolnost proti útokům ­(zde je SMT u x86 velká bezpečnostní nevýhoda­). Přečti si něco o TME a MTE instrukcích ARMu ohledně práce s pamětí.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 17.9.202315:09
To je sice hezké, ale stále tu máme celkový počet jader, s přístupem do RAM a na sběrnici. A když je toto propojení pomalé, tak nemáme plný výkon těch jader, že? Co vím tak cloud CPU jsou stavěné na 50­-60% vytížení všech jader, zatímco zaostalé x86­-64 jsou dělané na 100%. Tak se z toho snu prober. Pokud bych měl ARM CPU nahradit výkonný desktop, není čím.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 18.9.202313:09
Kam na ty tvoje bludy chodíš proboha?
- Kup si Orange Pi 5 se 16 GB a ten tvůj Zen 1 už nezapneš.
- nebo pokud máš prachy tak si kup Macbook Air s M1, na tu efektivitu staré M1 se x86 dostane až tak za 10 let na 1,5 nm TSMC
- za 20 tyček máš ojetý Air M1 s 16 GB RAM, bezvětrákový NTB s 2x větším výkonem a 10x nižší spotřebou než Zen 1
- nebo si kup ARM workstation s 96­-jádrovou Ampere Altra MAX

ARMy jsou nejvýkonnější CPU na světě:
- nejvyšší IPC .......... Apple A17 .... 59% nad Zen4
- největší L1 cache .. Appe A16 .... 192+128 kB = 320kB .......... Zen 4 má 32+32=64kB .... tedy 5x méně
- největší L2 cache ...Apple M2 .... 16 MB L2 cache .................. Zen 4 má 1 MB
- největší vektory ..... ARM SVE umí až 2048­-bit .................... Zen 4 má trapné AVX512
- nejvýkonnější CPU pro superpočítač .......... ARM Fujitsu A64FX co drtí i GPU
- nějvětší monolitický CPU ............................... 128­-jádrový ARM Ampere Altra Max, brzy přijde 192­-jádrová Ampere One
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 18.9.202315:00
Pravděpodobně jsi nikdy žádný test procesoru Altra nečetl celý. Jsou to procesory pro cloudovou zátěž tedy ne pro plnou pracovní zátěž s velkým datovým tokem. To je hodně velký rozdíl. Aby jsi to nemusel hledat, přečti si to tady, je to závěr z testu na Anandtech:

Conclusion & End Remarks
Our time with the new Altra Max has been interesting, as it­'s very much a chip design that quite polarising and pushing some aspects of core scalability to the very extreme.

When Ampere had talked about their plans to put to market a 128­-core variant of the Neoverse N1, a 60% increase in cores over their first generation 80­-core attempt, we were of course perplexed on how they would achieve this, especially considering the chip is meant to be used on the very same platform with same memory resources, and also on the same fundamental technology – same core microarchitecture, same mesh IP, and same process node.

The Altra Max is a lot more dual­-faced than other chips on the market. On one hand, the increase of core count to 128 cores in some cases ends up with massive performance gains that are able to leave the competition in the dust. In some cases, the M128­-30 outperforms the EPYC 7763 by 45 to 88% in edge cases, let­'s not mention Intel­'s solutions.

On the other hand, in some workloads, the 128 cores of the M128 don­'t help at all, and actually using them can result in a performance degradation compared to the Q80­-33, and also notable slower than the EPYC competition.



I think what we­'re seeing here is that Ampere is hyper­-optimising themselves into certain workloads. The Altra Max marketing is especially focused around cloud­-computing and hyperscaler deployments of the chip. Ampere­'s recent announcement earlier this summer, detailing that the company is working on their own custom CPU microarchitecture with specific plans to target such workloads, and abandon the general use case Neoverse Arm CPUs, with Ampere­'s description of “general use case” here being mentioned in a negative context, is telling that this is all a deliberate strategy.

What differs a cloud CPU from a regular CPU? I­'ll be frank here in mentioning that I don­'t have sufficient background on the matter other than to say that memory does not seem to be a focus­-point of such workloads. We­'re still working on expanding our test suite with more real­-world distributed systems workloads to cover such scenarios. By Ampere­'s wording of their announcement this summer, and by the very apparent direction of the new Mystique design performance characteristics, it seems we­'ll see even greater such extremes in the future.

On the competitive landscape, Ampere is carving out its niche for the moment, but what happens once AMD or Intel increase their core counts as well? A 50% increase in core counts for next­-gen Genoa should be sufficient for AMD to catch up with the M128 in raw throughput, and technologies such as V­-cache should make sure the HPC segment is fully covered as well, a segment Ampere appears to have no interest in. Intel now has an extremely impressive smaller core in the form of Gracemont, and they could easily make a large­-core count server chip to attack the very segment Ampere is focusing on.

Only time will tell if Ampere­'s gamble on hyper­-focusing on certain workloads and market segments pays out. For now, the new Altra Max is an interesting and very competent chip, but it­'s certainly not for everyone.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 19.9.202312:13
Předposlední věta: ­"Only time will tell if Ampere­'s gamble on hyper­­-focusing on certain workloads and market segments pays out.­"

Mezitím 128­-jádrova ARM Ampere Altra se zabydlela v serverech u Google, MS Azure a Oraclu ­(a hromadě menších server providerů­). A to se bavíme o Altře co má jádra A76 z roku 2018.

64­-jádro ARM Graviton 3 na 5nm TSMC s jádry V1­/X1 z roku 2020 už drtí cokoliv z x86 při pouhých 100W TDP ­(mezitím AMD muselo zvýšit TDP na 400W aby stačilo výkonem­).

A pak tu máme 144­-jádrový ARM Super Grace od Nvidie s jádry V2­/X3 z roku 2022. A hle Nvidia má obrovské zisky a musela zvýšit objednávky wafferů protože je o její 144­-jádrový ARM obrovský zájem :D

ARM už vyhrál. Teď je otázka času kolik pomatenců zůstane adorovat prehistorický a totálně zastaralý majetek Intelu ­(x86)
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 13.9.202312:22
To jádro až tak podrobně jsem na schématu neviděl.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 13.9.202311:06
https:­/­/www.anandtech.com­/show­/16315­/the­-ampere­-altra­-review

Dělali i test 128 jádrové verze, ta dopadla blbě právě z uvedených důvodů.

https:­/­/www.anandtech.com­/show­/16979­/the­-ampere­-altra­-max­-review­-pushing­-it­-to­-128­-cores­-per­-socket

Závěr je asi takový, že pro velké ARM procesory je potřeba dobře optimalizovaná zátěž a nehodí se na vše, zatímco x86­-64 jsou univerzální ale za cenu větší spotřeby.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 13.9.202312:06
80­-jádrová Altra výkonem vydrtila 64c­/128t AMD EPYC a ty to interpretuješ jako že dopadla blbě jo??? :D
https:­/­/images.anandtech.com­/graphs­/graph16315­/117496.png


Navíc si uvědom, že ten AMD Epyc se skládá z 9 čipů o celkové ploše 1005 mm2. Ta Altra je monolit kolem 600 mm2 což je skoro polovina. Jedno jádro A76 ­(N1­) má i s 1 MB L2 cache celkově 1.4 mm2, což je brutálně maličké jádro na to že to má IPC jako Zen 2. I ta 128­-jádrová Altra Max je pořád monolit o hodně menší než Epyc. To si uvědom.


Ty budeš nejspíš psychopat, protože jenom psychopati umí takhle lhát a totálně obracet fakta naruby.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(1)
kutil05 (560) | 13.9.202312:27
Závěr testu Altra M128­-30 jsi evidentě a možná i záměrně nečetl. Vypíchnout nejlepší scénář umím taky.

I tady je vidět, jak se pořadí výrazně mění podle podmínek testu: https:­/­/images.anandtech.com­/graphs­/graph16979­/126343.png

Zde přímo serverová zátěž Java:
https:­/­/images.anandtech.com­/graphs­/graph16979­/119882.png
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 13.9.202312:49
Jde o to, že ARM Altra je tak dobrá, že na ni přechází jak druhý tak i třetí největší cloud provider na světě ­(MS Azure i sám velký Google­). Ten největší ­(Amazon­) si už dávno svoje serverové ARMy dělá sám ­(Graviton 3­).

A tyhle serverové ARMy drtí x86 nejen úsporností a výkonem­/IPC, ale hlavně výrobní cenou: Amazon si Graviton 3 vyrobí u TSMC za 500 USD kdežto AMD chce za EPYC přes 10 000 USD. Chápeš to? Výkonem horší, žere to nejmíň 2x víc, ale chtějí za to 20x vyšší cenu. Tohle vydírání ze strany x86 výrobců muselo jednou narazit. A to se děje nyní, všichni masivně přechází na ARM.
OdpovědětKvalita příspěvku:  dobrá(1)  nízká(1)
kutil05 (560) | 13.9.202313:16
A tyhle serverové ARMy drtí x86 nejen úsporností a výkonem­­/IPC, ale hlavně výrobní cenou: Amazon si Graviton 3 vyrobí u TSMC za 500 USD kdežto AMD chce za EPYC přes 10 000 USD. Chápeš to? Výkonem horší, žere to nejmíň 2x víc, ale chtějí za to 20x vyšší cenu. Tohle vydírání ze strany x86 výrobců muselo jednou narazit. A to se děje nyní, všichni masivně přechází na ARM.

Ta cena fakt není 20x větší. Možná u Intelu, ale AMD je víc konkurenceschopná.

AMD 11,900 USD 9754 128c ZEN4c ­/ 14,756 USD 9684x 96c ZEN4 V­-cache ­/ 11,805 USD 9654 96c ZEN4

Proti tomu Altra Max 128­-30 5,800 USD

I HPC produkt nestojí ani celý trojnásobek a to v segmentu kam ARM nemíří.



OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 15.9.202310:10
AMD stojí jen 14 756 USD .................. pouhý trojnásobek :D


O HPC se nemá cenu bavit, protože pouze ARM má zastoupení v superpočítačích díky SVE vektorům. x86 slouží pouze jako podavač dat pro GPU, protože na nic jiného ve skutečnosti nemá výkon ­(jinak by se superpočítače stavěli na x86 a nikoliv na GPU+x86 že jo­).

Mimochodem Amazon má verzi ARM Gravtionu 3 specielně pro HPC ­(dvakrát víc FPU­/SIMD jednotek pro SVE instrukce­).
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 15.9.202311:36
Proti tvému údajnému dvacetinásobku...
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 17.9.202313:39
Jenže já mluvil o Amazonu a jeho výrobních nákladech kolem 500 ­- 700 USD, tam to 20x násobek je.
Ty výrovní náklady Altry budou taky kolem 1000 USD a skutečné smluvní ceny pro odběr >1000 kusů CPU budou pod 2000 USD.

Aneb tajemství proč velký Google, Oracle a MS přechází na ARM Altru vyřešena.
AMD se může roztrhat, ale EPYC se 1005 mm2 je prostě drahý a cenou se pod 2000 USD nedostane. Navíc elektricky žere 400W takže i provozně je dražší. To je jasná lose­-lose situace a smrt x86 je jistá. Proto AMD byla mezi prvními při IPO akcií ARMu na burzu. Oni moc dobře ví že x86 končí a aby nekrachly musí přejít na ARM.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 17.9.202315:14
To je ale k ničemu, když ty CPU nejdou normálně koupit. Dej odkaz na ARM CPU, který jde koupit a nahradí 16 jader AMD R9 7950X3D s jeho výkonem na jádro i propustností.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 19.9.202316:53
Samozřejmě že ten výkon jde koupit: Amazon prodává virtuální servery s kolika jádry jenom chceš, třeba jen se 4, 8 nebo 16.
A prodává to za poloviční ceny x86 serverů.

Pokud chceš výkonný desktop tak si kup Mac Studio s M2 Ultra ­(MT skore 21000 pts ...... Ryzen 7950X má jen 19000 ­).
Nebo je libo 128­-jádrovou Altru ve workstationu?
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 19.9.202317:40
K Altře jsem se vyjádřil už víckrát a k Apple taky. Najdi si jiné ARM lákadlo.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 20.9.202312:30
Situace připomíná ­"házení perel sviním­"....
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 13.9.202311:13
Řekl bych že ty širší vektory jsou SW záležitost a procesor je podobně jako ZEN 4 umí i na užších jednotkách. Co ve světě procesorů nějak výjimečné není. Řešeny tak byly už některé první koprocesory, které plnou šířkou řešily jen často užívané instrukce a ty další dělily do více průchodů. Tedy reálně v FPU všechny výpočetní operace trvají víc taktů a týká se to i ALU, jen některé širší trvají déle. V podstatě ti inženýři ví které instrukce se vyplatí udělat na méně taktů a které ne.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 19.9.202312:27
Tak to říkáš úplně špatně.

Fixní vektory ­(ala x86 MMX, SSE, AVX nebo Neon u ARMu­)
- instrukce má pevně definovanou šířku registru
- ta šířka nejde měnit
- tím pádem nový CPU musí mít nově překompilovaný SW aby využil nové širši AVX512
- a stejně AMD musí vyplýtvat tranzistory aby složitě konvertovala 512­-bit instrukce na svoje 256­-bit SIMD jednotky

Flexibilní vektory ­- ARM SVE, SVE2, SME
- instrukce určuje co se má dělat, ale neříká jak široký registr se má použít
- šířka jde měnit ­(od 128­-bit až po 2048­-bit, a všech 14 možností mezi­)
- čili jeden SW běží na všech 16­-ti šířkách SIMD jednotek ­(žádnej bordel jako u x86 se 128­-bit, 256­-bit a 512­-bit verzemi­)

- geniálně zjednodušuje vývoj SW a také HW je jednodušší ­(žádné vnitřní převádění­)
- šetří tranzistory a tím snižuje i spotřebu
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
kutil05 (560) | 19.9.202312:48
Ale na použití nových vektorů musí být SW tak jako tak přepsaný. Jedno zda AVX nebo SVE. SVE jsou pouze méně vázány na HW. Tedy pokud je umí ten procesor...
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Son_of_the_bit (392) | 19.9.202316:59
Nic přepisovat nemusíš. Stačí vzít zdrojáky a překompilovat na SVE2 target. ARM podporuje autovektorizaci o čemž si x86 může nechat zdát sny a musí ručně optimalizovat v ASM. Kvůli tomu právě ARM dělá ty flexibilní vektory, sizeless typy atd. Stačí si vygooglit SVE a autovektorizaci.
OdpovědětKvalita příspěvku:  dobrá(0)  nízká(0)
Zajímá Vás tato diskuze? Začněte ji sledovat a když přibude nový komentář, pošleme Vám e-mail.
 
Nový komentář k článku
Pro přidání komentáře se přihlaste (vpravo nahoře). Pokud nemáte profil, zaregistrujte se pro využívání dalších funkcí.