A není to málo Antone Pavloviči?
Není lepší tahle 128-jádrová workstation s pořádným RISC/ARMem co vydrtí tyhle x86 parodie na procesory?
https://youtu.be/ydGdHjIncbkKdo chce šetřit tak si koupí za 3000,-Kč Orange Pi 5 se 16GB, 8-jader, IPC jako Zen 2, iGPU větší výkon než iGPU v Zen 4, výstup na dva 8K monitory, spotřeba v idle 1,6W. Za to u AMD nekoupíte ani AM5 desku natož CPU a pak to žere v idle 80W :-)
https://youtu.be/ehtmWG897DY
Odpovědět1 9
Amper Altra za 3000$ a pomeranc za 3000kc…nic mezi tim nemate?
Btw. Na tom videu je prinosna ta pasaz, jak tam popisuje vsechny ty legrace, nez na tom neco rozbehal a kdyz uz to rozbehal, tak to vlivem emulace nemelo zadny vykon.
Odpovědět4 0
"3000 milionů" USD je za 2. nejrychlejší super počítač na světě co používá pouze ARM CPU s revolučníma 2048-bit SVE vektorama. Takže 128-jádrová workstation je tak nějak mezi tím. Nemůžu za to že x86 je bez GPU totálně neschopná něco spočítat ;-)
Jinak ten dnešní Orange Pi 5 má maximální konfiguraci licenčních jader, která v té době byla od ARMu k dispozici (4+4 big.Little).
2020 - Cortex X1 už uměl 4+4 big.Middle X1+A78 co má Snapdragon 8cx Gen 3 v noteboocích. Docela velký krok protože ona middle A78 má IPC lepší jak Zen 2, což je o něco víc než stará big A76.
2021 - Cortex X2 s IPC jako Zen 4 už uměla 8+4 big.Middle což je jump o 50% a to přidáním velkých jader, nikoliv malých prdítek jako to dělá Intel.
2023 - Dnešní Cortex X4 co má IPC vyšší o 33% jak Zen 4 už umí 10+4 big.Middle, takže další 2 velká jádra navíc. Tohle jestli někdo dá do levné Orange Pi 6, tak to vydrtí i 16c Ryzeny. I ta middle jádra jsou pořád slušná, protože middle A720 má IPC jako Zen 3. A všechno už je to čistě 64-bit, ani trazistor nepřišel nazmar pro nějaké staré 32-bit sračky. Revoluční 2048-bit SVE2 vektory už jsou samozřejmostí. Těch 14 middle A720 jader bude na 4nm TSMC zabírat podobnou plochu jako nyní 8nm Samsung u té Orange Pi 5.
Na to se těším, z toho bude 14c router jak malina. Jenom současní majitelé Zen 4 z toho nebudou nadšeni že router bude mít vyšší výkon než jejich předražený PC.
Odpovědět0 7
Mam uz jenom jednu otazku, co na tom teda pocitas?
Odpovědět0 0
https://youtu.be/ehtmWG897DY?t=483
Já jsem koupil za 3000,- Kč ten 16 GB Orange Pi 5.
Teď to mám píchlé do 4K monitoru a jede mi to jako záložní desktop. Má to 8-jádro s IPC jako Zen 2, což je paráda na takovou levnou věcičku. je to 3x rychlejší než Raspberry Pi 4 a žere to jen 2W, prostě pecka.
A iGPU to má silnější než Zen 4.
Normálně na tom jede Debian Linux s Gnome desktopem. Paráda.
Odpovědět0 2
Jo no, mam za sebou cca 12 let experimentu s ruznymi distribucemi Linuxu v roli primarniho desktopu a MS office aplikace vzdalene na RDP nebo ve virtualu jsem dosel k definitivnimu predsedceni ze…
Muj primarni desktop Musi mit nativni instalaci MS Office.
Vsechno ostatni se da pripojit vzdalene jako workhorse na pre/post, vypocetni servery atp. A klidne at to vse bezi na cemkoli, kdyz to bude mit vykon, spolehlivost a rozumne naklady.
Odpovědět0 0
A už jsi zkoušel nativní MS Office na Win 11 for ARM???
Já bych třeba řekl, že MS Office ve virtuálce běží úplně normálně. Naopak cokoliv co používá 3D grafiku bych vzdáleně nebo přes virtuálku rozhodně nedoporučoval. Ale nemám 12 let praxe s linuxem.
Odpovědět0 2
Office v RDP ma problemy treba s cliboardem a taky redponsibilitou komunikatoru, konfiguraci zvuku (Teams). Dalsi problemy jsou treba s propagaci oznameni na primarni desktop apd.
Protitomu veskere 3D jsme rozhybali na Cendino/thinclinc. Sdileni akceleratoru, skalovani HW mezi uzivatele bezproblemove. Do 10 uzivatelu/stroj je to zadarmo. Proti VMware horizon+ nVidia VDI usetrite milion na licencich a implementaci.
W11 for arm ma nejaky konkretni podporovany hw? Mel jsem za to, ze to funguje jenom jako virtualka na macOS
Odpovědět0 0
Zajímavé, to jsem nevěděl, díky za info. Vím že v QEMU lze passnout přístup přímo k HW z virtuálky.
Microsoft docela ten ARM tlačí na svých noteboocích MS Surface X.
Nebo Thinkpad se dělá s 8-jádrovým ARM Snapdragonem, pak Samsung notebooky taky měli ten SD, ale to nevím jestli se prodává u nás.
Jako workstatiton pak leda ta 128-jádrová ARM Ampere Altra. A prodávají i 32-jádra pro začátečníky :D
https://www.ipi.wiki/products/ampere-altra-developer-platform
Odpovědět0 3
ARM Ampere Altra jako universální odpověď. Jiné argumenty by nebyly? Toto je ohrané.
Odpovědět2 0
Jasně, ale dostanete výkon nějakého průměrného smartphonu. To je naprosto nesrovnatelné s PC s průměrným současným procesorem a grafickou kartou.
Odpovědět2 0
A jede na tom i neco uzitecneho, jako nativni Windows + Office, nebo na to musim mit team techniku, aby to zprovoznili?
Odpovědět0 0
Rozumně na tom nejede skoro nic.A tím bych uzavřel to jeho plácání o tom jak ARM ,,vydrtí,, x64....Nic takového se příštích 10 let nestane a nahnilé Jablko s ARM je jenom slepá vývojová větev.
Odpovědět0 0
Jede na tom všechno včetně RTX4090 a Win10 s Crysis.
https://www.youtube.com/watch?v=ydGdHjIncbk&t=608s
Larry Ellison, Oracle:
ARM je budoucnost, stará x86 je za zenitem, přecházíme se servery na ARM.
https://www.reuters.com/article/oracle-ampere-computing-idCAKBN2YE1KA
60% peněz z gamingu jde z mobilních zařízení, tedy ARM.
ARM umí čistě 64-bit CPU bez zpětné kompatibility s 32-bit pro max výkon v moderním 64-bit SW
ARM umí revoluční 2048-bit SVE vektory
ARM umí i matrix math instrukce s SME a SME2 2048-bit
2. nejrychlejší super počítač na světě je 64-bit ARM + SVE, přitom jsou to čistě CPU a nemá žádné GPU, přesto výkonově drtí x86+GPU
Za 10 let už bude x86 v muzeu a děcka se o ní budou učit jako o slepé vývojové větvi :D
Odpovědět0 4
Mozna jede, ale otazka je jak a z jakym usilim ze :)
Odpovědět1 0
ARM je rychlejší a za polovinu ceny. Jinak by se s tím v serverech ani nezabývali, to dá rozum.
Na Anandtechu je test Graviton 2 jak masakruje x86 procáky výkonem a cenou.
Dnešní V2 jádro od ARMu má o 85% vyšší IPC jak ta N1/A76 v tom Gravitonu 2.
Navíc je čistě 64-bit, umí revoluční 2048-bit SVE2 a podporuje až 512 jader na jeden socket. Masakr.
Odpovědět0 2
Ukažte mi katalogový list procesoru, který má 512 jader nejlepšího jádra ARM. Jinak jste za kecala a lháře. Asi jako u toho testu, kde srovnávali 16 jader AMR a 8 jader (16 vláken) AMD a Intel.
Odpovědět0 0
Hele brzdi s tím označováním lhářů. Já jsem mluvil o Neoverse V2 jádře a jeho serverové platformě co dokáže, nikoliv o konkrétním produktu. V2 jede na platformě CNM700 a ta umí 256-jader na čiplet a celkově 512-jader na socket, jak psal výše:
https://images.anandtech.com/doci/16640/Neoverse_CMN_7_575px.png
Ano Phoronix srovnával 16 ARM jader vs. 16 vláken x86, protože to má skoro stejnou cenu a cloudový provideři to takto nabízí se zapnutým SMT. Co je na tom divného? SMT samozřejmě lze vypnout, ale cena bude 2x vyšší. x86 prohraje ještě o víc, protože vypnuté SMT sníží výkon.
Odpovědět0 3
Víc fér by bylo udělat taky testy s vypnutým SMT a 16. jádry. Pak by bylo možné srovnání jak moc SMT funguje. Protože, co vím, tak prakticky nikde neplatí že každé vlákno opravdu vytíží 50% jádra ani 40 ku 60 nebo 30 ku 70. Ale samozřejmě dost záleží i na typu zátěže.
Nějaké reálné CPU? Tabulka sice krásná, ale tu se bavíme s názvem architektury.
Odpovědět0 0
S vypnutým SMT by x86 nemělo cenu/výkon oproti ARMu dvojnásobnou, ale tak cca 3x násobnou.
Co na tom nechápeš?
Zcela určitě by x86 CPU co boostuje na 3,6 GHz porazil Graviton 3 na 2,6 GHz, když V1 jádro toho G3 má stejné IPC jako Zen 3 v tom testu. Otázka je jestli by zákazníci chtěli platit 3x víc za o 50% větší výkon. Evidentně ne, když ARM pořád roste a x86 ztrácí.
Odpovědět0 1
"když ARM pořád roste a x86 ztrácí" Tak zrovna toto by asi bylo vhodné doložit...
Energetická efektivita nezáleží jen a pouze na ISA, když se podívám jen na EPYC procesory, jsou zde dost rozdíly, když udělám prostý výpočet, kolik wattů vychází na jedno jádro jen podle TDP. A tady stojí za připomenutí, že u serverových CPU platí, že jde opravdu o maximum včetně všejádrového boostu. Navíc TDP bývá konfigurovatelné takže 400 W CPU může být nastaven na 320 W.
Ten all core boost, což je u AMD novinka, dělá docela dost. např. u 96 jader / 192 vláken AMD EPYC 9684X je základní takt 2,55 GHz a všejádrový 3,42 GHz. Maximální při tom 3,7 GHz. To pro všechna jádra dělá 1,34x víc výkonu. A to jde o model s V-Cache tedy 1152 MB L3.
Pro 128 jader / 256 vláken AMD EPYC 9754 dokonce all core boost je shodný s maximem 3,1 GHz proti základu 2,25 GHz.
Odpovědět0 0
Energetická efektivita na ISA záleží.
x86 instrukce může mít 1 bajt až 15 bajtů.
Jak dekoduješ 10 instrukcí / takt když nevíš kromě té první kde ty ostatní začínají? Existuje 639 možností kde ty instrukce mohou ležet. Brute-force, prediktory a jiné sračky co tam vůbec nemusí být v první řadě.
ARM jako RISC tohle řešit nemusí, prostě 10. instrukce leží na 40. bajtu, protože všechny mají 4 bajty / 32-bitů.
Proto x86 žere a vždycky bude žrát jak prokopnutej a je jenom otázka času kdy chcípne.
Odpovědět0 3
Kolovrátek jede dál a nevidí neslyší, hezky úzké tunelové vidění dopředu a co je vlevo a vpravo, těžký nezájem. Fugaku supercomputer je proti AMD řešení CPU + GPU energeticky dost neefektivní.
Odpovědět0 0
Rozhodně je ARM násobně výkonnější a efektivnější než x86, protože super-počítač čistě na x86 radši ani nezkouší postavit :D
x86 je v superpočítačích jen takový přeposílač dat pro GPU, něco jako router s příšernou spotřebou.
Však zkus na tom x86+GPU superpočítači spustit nějaký normální výpočet, třeba ray-tracing nebo Nginx server. Ty GPU se z toho zhroutí na zlomek výkonu, kdežto ten ARM superpočítač bude valit jak namazaný stroj, protože to je celkem našláplej klasickej OoO CPU s 4x ALU CPU + 2x512-bit SVE.
Však už se chystá 2. generace toho Fugaku, ta třeba bude mít 2048-bit SME2 vektory/matice a dá nakládačku GPU i v té efektivitě. To bude velká legrace.
Odpovědět0 4
Znovu pro ty méně chápavé, běžný kód NIKDO na superpočítači nespouští. Superpočítače jsou používány na zpracování obrovských balíků dat. Něco jako když na běžném PC jedou masivní výpočty na GPU. Taky jsem už napsal, proč Fukagu jede jen na CPU.
Odpovědět0 0
Pro méně chápavé: na superpočítači s CPU-only se nemusí tolik času trávit optimalizacemi pro GPU-like výpočty, takže vývoj onoho SW vyjde podstatně rychleji a levněji. Viz ty hlouposti jako kopírování dat z RAM do VRAM a po výpočtu zase zpět. Nic z toho se nemusí u Fugaku řešit. Navíc je to jedna architektura a debugování naprosto bez problému.
Ale těžko to vysvětlovat někomu kdo nikdy nic v C/C++ nedělal.
Odpovědět0 3
Tak to bych takto jednoduše neřekl, protože žádný SW nativně nedokáže vytížit tak masivní počet jader. Tedy SW pro superpočítač stejně musí být napsán a zkompilován na míru. Tím spíš, že Fukagu používá variantu ARM, která do té doby jaksi jinde neexistovala, tudíž ten SW logicky museli napsat tak, aby optimálně využili možnosti těch CPU.
Nehledě na jeden podstatný detail: Fujitsu A64FX nejsou běžné ARM CPU, mnohem víc připomínají IBM Cell (kromě 32 bit verze pro Sony byla i 64 bit verze pro superpočítače) Funguje to tak, že jsou zde 4 řídící jádra a 48 vektorových. U Cell byl jeden řídící Power a 8 vektorových.
Takže opravdu doporučuji víc přemýšlet a když nevíte, tak si doplnit vzdělání, pak opět raději déle přemýšlet a až potom ventilovat názory vežejně.
Odpovědět1 0
Srovnávat Fujitsu s tím nepovedeným IBM Cell, který nikdy nedostal nástupce, protože stál totálně za prd, to fakt ani nezaslouží komentář.
Klidně si takovou pitomost mysli dál, mě je to fuk.
Odpovědět0 2
Tak udělejte vlastní rozbor a analýzu. Možná že lidi, co píšou články o procesorech něčemu úplně nerozumí... Spíš si myslím, že se vám takové srovnání prostě nelíbí. Já navíc popisoval pouze poměry vektorových a řídících jednotek z dostupných informací. To v žádném případě neznamená, že s takovým časovým odstupem budou mít ty procesory stejné problémy. I když některé charakteristiky asi podobné budou. Dost velký rozdíl bude určitě v šířce vektorů a instrukční sadě. I řídící jádra budou patrně o dost výkonnější. Cell je srovnáván s Power 4, ze kterého vycházela řídící část.
Odpovědět1 0
Panebože, můžou ty SPE v Cellu mít vlastní task s vlastní virtuální pamětí? Ne nemůžou, takže to nejde srovnávat s plnohodnotným CPU jádrem v tom Fujitsu. Cell je debilní spatlanina kde ty SPE jsou někde mezi CPU a vektorovou jednotkou, ani ryba ani rak, hlavně to potřebuje ručně optimalizovaný kod v assembleru aby to bylo k něčemu dobré. Ruční optimalizaci se 20 let každý snaží vyhnout, takže to bylo příšerné šlápnutí vedle a proto nedostal nástupce.
Ten Fujitsu je úplný opak. Aby nemuseli optimalizovat pro CPU+GPU heterogenní systém se dvěma kompilátory pro každou instrukční sadu zvlášť, a taky kopírovat data mezi RAM a VRAM, tak ten CPU-only Fujitsu tohle všechno obrovsky zjednodušuje. Zkus si rozjet nějaký výpočet na GPU, existuje hromada návodů na Youtube, a vyzkoušej si to sám jak je to debilní oproti čistému více vláknovému C++.
A ty 4 řídicí jádra tam suplují 64-jádrový x86 CPU, který se stará o odesílání výsledků po síti a načítání dalších vstupních dat pro další iteraci výpočtu. Přece nemůžeš tvrdit že x86 CPU + 8x GPU je jako Cell, ikdyž to trochu vzdáleně a hodně abstraktně ten Cell připomíná. Každý výpočetní MPI klastr rozhazuje data svým výpočetním nodům už odnepaměti a dávno než nějakej Cell vůbec vzniknul.
Odpovědět0 2
Motat do toho x86 to už je tedy něco. V těch IBM strojích to fungovalo tak, že na dva Cell/BE byl jeden AMD Opteron. Patrně řídící jádro nemělo tolik výkonu. A pravděpodobně by bylo lepší, kdyby ty Celly řídily jiné Power procesory. I tak s touto kombinací byl RoadRunner tehdy nejvýkonnější.
Ale jak moc bylo to řídící jádro až tak slabé, když ořezaná 32 bit varianta v Sony Play Station 3 jako hlavní procesor stačilo?
A to srovnání jsem si nevymyslel já. Popravdě řečeno bych si při čtení popisu Fujistsu A64FX na nějaký IBM Cell ani nevzpomněl. Tedy znovu Cell - 1 jádro řídící a 8 výkonných vektorových. A64FX 4 řídící a 48 výkonných. Vychází to na 12 výkonných na jeden řídící. A patrně ta výkonná umí spolupracovat spojováním a právě proto ten procesor umí tak široké vektory - 2048 bitů.
Jinak spolupráci více jader dohromady pro zpracování vektorů vymysleli u některé ze starších generací IBM Power, takže to až tak nové či divné není.
Odpovědět0 0
Oprava. O 2048 bitech Fujitsu nepíše. Pouze, že ta výkonná jádra zpracovávají 512 bitů vektory. Ovšem řídící jádra můžou být taky jen dvě.
Odpovědět0 0
Přímo ze stránek Fujitsu:
Computational node: 48 cores + 2 assistant cores
I/O and computational node: 48 cores + 4 assistant cores
Odpovědět0 0
Tady dlužím trochu omluvu. Cell je opravdu něco jiné. Fujistsu A64FX navazuje na SPARC64 XIfx.
SPARC64 XIfx měl dva clustery po 16+1 jádrech každé jádro umělo 2x256 bit FMA. RAM realizovaná HMC.
A64FX má čtyři clustery po 12+1 jádro uvnitř clusteru ring bus, FMA 2x512 bit a 4 ALU (ale vykonávají další funkce), RAM HBM2. Cache L2 je celkem 32 MB - tedy 8 MB sdílené na cluster. L3 žádná není.
V obou případech 32 GB RAM na patici.
Ta plus jádra vyhrazena pro OS, zbytek mají k dispozici aplikace. Je evidentní, že jde o CPU silně zaměřeno právě na vektorové operace. Výkon ALU je v pozadí, tedy až tak universální taky není.
Odpovědět1 0
Nějaké současné srovnání by nebylo? Epyc 7571 má 32 jader ZEN 1 na základním taktu 2,2 a turbu 3 GHz. To je fakt pár let zpět. Kde je nějaké srovnání z aktuální Epyc řady 9004 a tou vychválenou X4?
Odpovědět0 0
Ten inženýr A. Frumusamu co dělal ty testy Gravitonu 2 na Anandtechu odešel pracovat do Nuvia-CPU divize Qualcommu. Žádné další takto detailní rozbory od té doby na Anandtechu nevyšly.
Graviton 3 s jádry V1 (z roku 2020) má mít o 25% vyšší IPC a podporuje ty revoluční SVE vektory (byť SW pro to neexituje). Tohle testoval Phoronix a Zen 3 dostal nabudku. Zen 4 by dopadl lépe, ale ten ARM prostě stojí polovinu peněz a tím to konkurenci z x86 porazí tak jako tak:
https://www.phoronix.com/review/graviton3-amd-intel/9
Nvida Grace co má mít jádra V2 (odvozená od Cortex X3) vyjde letos na podzim. Ale X3 v telefonech vykazuje 19% vyšší IPC než Zen 4.
V serverech bude až X5, serverové verze vydávají co druhý rok. X4 bude jen pro telefony od letošní zimy.
Odpovědět0 3
Vtip je v tom, že ten test je nastavený tak, že srovnává procesory se stejným počtem vláken, tedy Gravitony mají 16 jader, Intel a AMD 16 vláken, tedy 8 JADER. A o taktech není nikde ani zmínka, tedy aspoň v té tabulce, kde jsou parametry jako počty jader, velikost RAM a podobně. Kromě toho, tesů je tam víc, samozřejmě a test od testu se výsledky liší. Srovnání odlišných architektur a ISA je komplikované, test od testu se výsledky můžou násobně lišit.
Odpovědět0 0
64c Graviton 2 má fixní frekvenci 2,5 GHz .... TDP 100W
64c Graviton 3 má fixní frekvenci 2,6 GHz .... TDP 100W
Ano v enterprise hraje velkou roli výkon / vlákno z důvodu licencí, které se dávají na vlákno. To samé cloud, koupíš si 16 vláken pro server a chceš aby to mělo výkon. Jestli je to virtuální nebo fyzické jádro tě nezajímá. Platíš za výkon a ten má x86 CPU se zapnutým SMT skoro poloviční (cca 60%) i přestože to boostuje na 3,6 GHz.
A to je přesně oblast kde silné IPC čistě 64-bit ARMů na nízké frekvenci (a tedy násobně nízkou spotřebou) totálně rozdrtí nenažrané x86 i s jejich slavným SMT.
Odpovědět0 3
"A to je přesně oblast kde silné IPC čistě 64-bit ARMů na nízké frekvenci (a tedy násobně nízkou spotřebou) totálně rozdrtí nenažrané x86 i s jejich slavným SMT".
Zajímavé od někoho kdo tak oplakává Alpha EV8 s čtyřcestným multithreadingem. A ještě drobnost, kterou snad každý, kdo se pohybuje ve světě IT HW, určitě chápe. Nastavením skladby testů se dá výsledek ohnout žádaným směrem. Kromě toho ARM jsou nejvhodnější pro Cloud, pro masivní výpočty se až na opravdu speciální případy jako je Fukagu s namíru vyvinutými CPU, prostě nehodí, proto má Intel a AMD i Nvidia stále takový podíl v serverech i superpočítačích. A to co dnes zajímá zákazníky je celkový poměr výkonu a spotřeby a právě v tom je kombinace CPU a GPU stále nejlepší.
Odpovědět1 1
Ty máš trošku delší vedení, protože jsem opakovaně napsal že EV8 je škoda kvůli 8xALU a 4xFPU, kterých jsme se dočkali až letos s Cortexem X4. SMT4 je jenom taková třešinka na dortu která by stejně šla v BIOSu vypnout/zapnout podle potřeby.
64-bit ARMy jsou výkonnější úplně ve všem, viz to vysoké IPC v Geekbench nebo SPEC2006. V obecných algoritmech jako jsou v tom Geekbench 6, se ukazuje že ARM jádra nakopou x86 zadek kdykoli a kdekoli. V cloudu ARM má největší úspěch kvůli ustrašeným lidem jako jsi ty. Prostě si naklikají ARM server a platí polovinu. A přitom se nemusí bát o ARM HW a před spaním odříkávat 100x otčenáš ať je spasí před tím ďálblem z dílny ARM :D
A to ještě teprve přijdou optimalizace pro revoluční SVE2 a po nich i SME/SME2 pro maticové výpočty. To teprve nastane ten pravý masakr motorovou pilou.
Odpovědět0 4
To s možností vypínání a zapínání je dost teorie, žádné EV8 CPU, totiž nepřekročilo fázi návrhu. Ale pokud byl stávající SW psaný pro užší jádra, proti EV4 násobně, pokud se nepletu tak pouze u poslední vydané generace na samotné jádro nesáhli EV7 proti EV6 změnila sběrnici, přístup k RAM (přešli na RAMBUS) a L2 cache. Jinak byly generační rozdíly dost velké a jádro se hodně rozšiřovalo. Takže vypnutí SMT na EV8 by dost výrazně omezilo využitelnost toho jádra, tedy by to nemělo moc smysl. Proti EV7 a tedy i EV6 bylo 2x širší. Proti EV5 4x širší. Navíc na EV7 už neexistovala žádná primárně pracovní stanice pouze servery u EV8 by to asi nebylo jiné.
Odpovědět1 0