Diskuze: Nvidia Tesla K20 - součást nejvýkonnějšího superpočítače

Diskuze k článku: Nvidia Tesla K20 - součást nejvýkonnějšího superpočítače

27.11.2012, Petr Štefek, technologie

V dnešním článku si představíme hardware, který se stal stěžejním základem pro nejvýkonnější superpočítač Titan. Základem akcelerátorů Tesla K20 je jádro GK110, které drží primát čipu s největším množstvím tranzistorů.

Hellfire (1) | 3.12.201212:14

Ahoj redakce.
Díky za zajímavý článek. Rád bych, ale znal názor autorů na dosažitelnost teoretického výkonu dané architektury. Nebylo by špatné přidat rovněž kritické zhodnocení a Váš názor na věc :-) Takto je to jak kopie white paperu nebo části přednášky z SC12 či GTC.

To že Nvidia píše 3.52TFLOPS, je sice pěkné ale tento výkon je dosažitelný pouze s využitím totálně uměle vytvořeného instrukčního mixu (nebo Linpacku), který ideálně počítá 1000 mocninu prvků vektoru stylem x = x *x*x*x*x....*x
Problém GPU jako výpočetní architektury je celkem šílený poměr FLOP/B. Pokud se totiž zamyslíme nad propustností pamětí cca 250GB/s a řekněme single precision, pak paměťově limitovaná aplikace (což je skoro všechno co streamuje data stylem c[i] = a[i] + b[i]) dosáhne výkonu 62 GFLOPs. Pro plný teoretický výkon musíme nad každým číslem v single precision provést 56 operací. Což je pro spoustu HPC algoritmů dost zásadní problém!

Problém totiž je, že výpočetní jednotky musíme něčím krmit. A tady si myslím, že má NVIDIA co dělat. Naskládání více výpočetních jednotek vedle sebe je jednoduché a poměrně levné řešení, ale přidání registrů a cache už je mnohem větší problém, protože větší cache = větší latence... Zde bych v prvé řadě opravil chybku autorů. Jestliže mám 65536 registrů pro float a max 2048 vláken, tak mi pro jedno vlákno zůstane pouze 32 registrů (ne 255), a to není moc. V double precision je to ještě hroší, tam zůstane pouze 16! Rovněž sílená paměť téměř nenarostla, což vidím jako největší problém architektury. 48KB při takovém počtu vláken a CUDA jader je vlastně nic. L2 moc nepomůže protože je jen pro pře-uspořádávání dat a časové nebo prostorové lokalitě dat nepomůže. Z pohledu CUDA programátor na Fermi, mám tedy více výkonu, ale méně paměti. A to v porovnání s gigantický cahcei na CPU moc bolí. Další zásadní problém je málo grafické paměti. Běžný uzel superpočítače má dnes 4GB na CPU jádro, zde je to 6GB na GPU. Spousta programátorů by ocenila jádro Fermi a 32GB DRAM místo Keplera se 6GB. (ono totiž v rámci superpočítače je rovněž nutné data přeposílat mezi uzly což je zde zásadní problém pro efektivitu - takže chcete mít lokálně o největší balík dat).

Bude tedy zajímavé sledovat vědecké články o aplikacích pro Titan. Doufám, že někdo ukáže prakticky dosažitelnou efektivitu výpočtu (teorie vs. praxe). Dnes v běžných GPGPU je to cca 10% (pokud se provádí srovnaní správně). NVIDIA totiž velice ale velice ráda přehání. Když začalo GPGPU a CUDA se dostala ven, celý internet a i firemní prezentace NVIDIA hlásaly zrychlení 1000x atd. Poté co to už pár lidí psychicky neuneslo (včetně mě) a pár borců z Intelu sepsalo hustý článek o tom, jaká kravina je srovnávat GPU proti 1 vláknu CPU bez SSE, bez optimalizací atd, a ukázalo svoje efektivní implementace na 6 jádrovém Xeonu, NVIDIA každého půl roku snižuje dosažitelný výkon 2x. Po 5 letech už dnes tvrdí něco kolem 10ti :-)

BTW: Surový výkon Sandy Bridge-E bez AVX je někde kolem 80-100GFLOPS s AVX by to bylo 8x více (ale to intel nikde neukazuje, protože ví, že je to naprosto nedosažitelné).

Odpovědět3 0

beatNickMICkey | 29.11.20120:24

Oujea pržíteli, zelená vesmirna šmejd uos ouvr maj hed! Bat dont penic! Ui hejv nova dženerjšn motor paurd scajts end katrs! End fajnly, ui have dyfolient! Píís bradr!!!

Odpovědět0 1

so_phi_a | 29.11.20121:24

Omluvte nás, bratr z Ameriky je prosťáček a analfabet - neumí pořádně česky ani anglicky. Trapas, rodinné tajemství je venku :-(

Odpovědět0 1

so_phi_a | 28.11.201220:44

Připadá Vám snad tato tapeta nekorektní, diskriminační, zaujatá, zpolitizovaná, či prostě - ideově "zavánějící" a neobjektivně "zavádějící"?

V tom případě neprodleně uvědomte nejbližší kancelář ministerstva pravdy. A včasně navštivte svého psychiatra, abychom zabránili nežádoucí mutaci na druh "Sapiens".

Odpovědět0 1

so_phi_a | 28.11.201218:33

Matka tě příliš dlouho kojila, Tony, nemůžeš za to, to ona. Dnes jsi nesvéprávný, nepoužitelný a neschopný, ani pojistku sám neuzavřeš a ještě křičíš, že máš málo a nadáváš na svého velkého bratra... Můj ty světe, kam jsme to dospěli...

Odpovědět0 1

so_phi_a | 27.11.201213:17

Tak by mě zajímalo, co si obecně myslíte o zprávě, která před nedávnem prolétla odlehčenými médii o Cambridgskému výzkumu hrozeb vyplývající z objevu/procitnutí AI. Není to jen další "zelený" strašák?

Myslím, že se to sem docela hodí...

Odpovědět0 0

so_phi_a | 27.11.201212:03

Solidní článek.
Myslím si, že v průběhu několika málo následujících let, se situace jednoznačně obrátí ve prospěch Intelu.
nVidia+TSMC=1/5 Intelu (o AMD zde asi nemá smysl mluvit, pokud vedle sebe nemá IBM), a tento již za pár měsíců začne s lazením 14nm. Intel navíc nabízí s Phi asi nejjednodušší řešení s nejmenšími nároky na low level programming, pokud ještě přidá OpenCL je situace asi jasná. Zatím jsme sice neviděli žádná čísla o která bychom se mohli skutečně opřít, ale teoretický double precision výkon Phi je pro konkurenční nVidii dost nepříjemný.

Odpovědět0 0

so_phi_a | 27.11.201212:17

K tomu se asi vážně nejvíce hodí sousloví: "Utopit na lžíci s vodou." Možná proto zaujímají investoři a byznysmani k nVidii tak chladný postoj.

Odpovědět0 0

mmmmmmmmmm | 27.11.201215:17

No já nevím. Vzhledem k tomu, že zrovna v tom Titanu jsou vedle NVidie AMDčka místo zázračnýho Intelu .... :-)

Odpovědět0 0

so_phi_a | 27.11.201217:43

Teorie je jedna věc, praxe druhá. nVidia je těžkopádná (školení, zasvěcení, znalost architektury). AMD mělo s těmi svými Opterony zrovna dobrý poměr výkon/spotřeba, proto tam jsou - o to, ale rychle přichází (22;14nm)...

Odpovědět0 0

so_phi_a | 27.11.201217:51

Vyměnit kartu v PCIe je jednodušší a méně nákladné, než měnit celou platformu (Xeon) - to by se nedopočítali, je nutno zohlednit tyto náklady...

Odpovědět0 0

so_phi_a | 27.11.201218:29

Titan se hardwarově ve výsledku může ukázat jako nevýhodná exotická investice. Klimaskeptik by možná řekl, že se tady vyhazují peníze a celý Titan by také možná připsal zelené konspiraci.

Odpovědět0 0

Zajímá Vás tato diskuze? Začněte ji sledovat a když přibude nový komentář, pošleme Vám e-mail.

Nový komentář k článku

Pro přidání komentáře se přihlaste (vpravo nahoře). Pokud nemáte profil, zaregistrujte se pro využívání dalších funkcí.

Doporučujeme z našich magazínů

Doporučené telefony na focení: březen 2024

28.3.2024, článek, Milan Šurkala

Doporučené fotoaparáty: březen 2024

26.3.2024, článek, Milan Šurkala