Aktuality  |  Články  |  Recenze
Doporučení  |  Diskuze
Grafické karty a hry  |  Procesory
Storage a RAM
Monitory  |  Ostatní
Akumulátory, EV
Robotika, AI
Průzkum vesmíru
Digimanie  |  TV Freak  |  Svět mobilně

DeepSeek-R1 (671B) běží na Apple M3 Ultra s 512 GB RAM: mnohem levněji než RTX 5090

17.3.2025, Milan Šurkala, aktualita
DeepSeek-R1 (671B) běží na Apple M3 Ultra s 512 GB RAM: mnohem levněji než RTX 5090
Apple Mac Studio s novým procesorem M3 Ultra mají mnozí za předražený nesmysl. Příplatky za více paměti jsou opravdu velmi vysoké. Pokud vás ale zajímá běh opravdu hodně velkých LLM, cenově asi nemá konkurenci.
Apple před dvěma týdny představil nový procesor M3 Ultra, který se dostal do počítačů Mac Studio. Základní varianta vyjde na 124.990 Kč s DPH a obsahuje 28jádrovou verzi CPU, 60jádrové GPU, 96 GB jednotné paměti a 1TB úložiště. Budete-li chtít 32jádrovou variantu s 80jádrovým GPU, pak si už musíte připravit 169.990 Kč. Jak jsme si minule ukázali, "plná palba" s 512GB jednotnou pamětí a 16TB SSD se může dostat až na 427.990 Kč. Nicméně i přesto může jít o cenově velmi výhodnou nabídku. Zásadní otázkou je to, jaké bude použití.
 
 
Na YouTube kanále Dave2D to autor vyzkoušel pro inferenci největších dostupných LLM. Ty totiž potřebují obrovské množství paměti, a to ideálně rychlé VRAM. A právě tady M3 Ultra kraluje. Z něčeho, co se může zdát být předraženým, dělá velmi zajímavý stroj.
 
Zatímco do 32GB VRAM u GeForce RTX 5090 se vejde např. model DeepSeek-R1 32B (s 32 mld. parametry), na 70B to už stačit nebude, nemluvě o 671B variantě. Ta chce přes 400 GB paměti. Na něco takového budete potřebovat hodně přes 10 grafických karet GeForce RTX 5090, což při dnešních cenách bude tak 1-1,5 milionu Kč. A to nemluvíme o tom, jak vlastně takové množství karet fyzicky zapojit k sobě (pokud je vůbec seženete). 13 takových karet bude mít navíc TDP spotřebu 7500 W, nemluvě o dalším hardwaru (to ale pochopitelně neznamená, že bude své TDP dosahovat běžně při práci). Pro zajímavost, starší Nvidia HGX A100 640GB s 8 GPU stojí asi 3 mil. Kč a TDP je 1500 W, Nvidia HGX H100 640GB pak vyjde na 8 mil. Kč a TDP činí 5600 W.
 
Apple M3 Ultra DeepSeek
 
Jenže takto velký LLM se vejde do jediného Mac Studia, pokud má 512GB sdílenou paměť. Takový začíná na částce 289.990 Kč, což je zlomek toho, co by potřebovalo řešení Nvidie. To by sice bylo velmi výrazně výkonnější už i s jedním GPU, ale tady je problémem malá paměť (můžeme-li to říci o 32 GB VRAM). Přesto bylo třeba udělat ústupky a 671 miliard parametrů muselo projít 4bitovou kvantizací, takže šlo o méně přesný model. Také bylo potřeba nejprve povolit alokaci tak velkého množství paměti. Mac Studio při běhu tohoto LLM bral jen cca 160-170 W. Jak vidíme, má zhruba o 55-70 % více výkonu než M2 Ultra a M4 Max se 128 GB paměti, nicméně to platí jen pro 70B variantu DeepSeeku. Tyto verze už nebyly schopny rozběhat 671B variantu, která se do paměti jednoduše nevešla. Do 512GB M3 Ultra ano.
 
Pokud jde o paměťovou propustnost, RTX 5090 má v tomto výhodu, ta činí 1792 GB/s, zatímco u M3 Ultra je 819 GB/s. Nicméně i to je mnohem více, než kdyby to mělo běžet na RAM (i tam by byl problém s tím, jak tak velké množství RAM zapojit a vyžadovalo by to CPU a desky pro pracovní stanice. Např. standardní spotřebitelská DDR5-5600 v dual-channelu zvládne jen necelých 90 GB/s. Threadripper s 8 kanály by těch 512 GB mít mohl se zhruba 400 GB/s.
 
Pochopitelně toto je jeden z typů úloh, které sedí M3 Ultra kvůli jedné jeho vlastnosti, možnosti alokovat obrovskou VRAM. Samotné GPU je sice dost výkonné, ale třeba v tomto se vůbec nepřibližuje ani jediné GeForce RTX 5090, natož 13 takovým. Např. v Blenderu měl M3 Ultra 7.273 bodů, zatímco RTX 5090 dosáhla na 14.820, tedy více než dvojnásobek. A naopak na to je např. 512GB varianta zbytečně předražený luxus (jako na spoustu dalších věcí).