Groq nabízí AI akcelerátor s výkonem 1 PetaOPS: čtyřnásobek NVIDIA V100

Groq nabízí AI akcelerátor s výkonem 1 PetaOPS: čtyřnásobek NVIDIA V100
, , aktualita
Na trh se dostal nový Groq Tensor Streaming Processor (TSP), čili specializovaný AI akcelerátor na rozšiřující kartě, který můžeme srovnávat třeba se schopnostmi karet NVIDIA Tesla V100. 
K oblíbeným
reklama
Groq je další z dlouhé řady startupů, které se snaží vyrobit výkonný specializovaný akcelerátor pro systémy umělé inteligence, ovšem na rozdíl od mnohých jiných už své řešení dostal na trh a jde o velice zajímavý Groq Tensor Streaming Processor (TSP) s výkonem cca 1 PetaOPS, čili 1015 operací za sekundu při spotřebě/výdeji tepla 300 W. Jde o obrovský čip, který se skládá v podstatě jen z vektorových a maticových jednotek a cache, takže tu nejsou žádné kontrolery nebo backend a díky tomu je plocha čipu maximálně využita. 
 
 
TSP se dělí na 20 tzv. superlinek a ty jsou dle dokumentace (pdf) tvořeny maticovou jednotkou (320x MAC), transformační jednotkou, paměťovou jednotkou (5,5 MB), vektorovou jednotkou (16 ALU), další paměťovou jednotkou (5,5 MB), transformační jednotkou a opět maticovou (320x MAC). Vektorová jednotka tak superlinky dělí na dvě stejně vybavené "hemisféry" označované za východní a západní, které mohou pracovat téměř nezávisle na sobě. 
 
 
Jednotný proud instrukcí pak jde do každé části nulté superlinky, a to 6 instrukcí pro MAC, 14 pro transformační jednotky, 44 pro paměťové a 16 pro ALU. V každém taktu pak tyto jednotky provedou své operace a přeposílají si data po 512 B bezprostředně mezi sebou. Po dokončení úlohy se pak vše s instrukcemi pošle do další superlinky, zde tedy do první supelinky a nultá dostane další práci. Instrukce se tak posílají pouze vertikálně mezi superlinkami a data samotná pouze horizontálně v rámci nich samotných.
  
  Groq TSP Nvidia Tesla V100 Nvidia Tesla T4
Jádra 1 5120 2560
Maximální takt 1250 MHz 1530 MHz 1590 MHz
FP16 TFLOPS 205 TFLOPS 125 TFLOPS 65 TFLOPS
INT8 TOPS 1000 TOPS 250 TOPS 130 TOPS
Cache (L1) 220 MB 10 MB 2,6 MB
Operační paměť N/A 32 GB HBM2 16 GB GDDR6
TDP 300W 300W 70W
Proces 14nm 12nm 12nm
Velikost čipu 725 mm² 815 mm² 545 mm²
 
Zde pak máme přímé srovnání s čipy Tesla V100 a T4 od společnosti NVIDIA, od nichž se dané TSP od Groq liší už jen svou základní topologií, která znamená, že jde v podstatě o jedno jádro a další zásadní rozdíl je v tom, že není zapotřebí žádná operační paměť. Pokud ta není zapotřebí, jde o obrovskou výhodu jednak v tom, že se značně ušetří na celkových nákladech, dále že není potřeba vyhradit nezanedbatelnou část čipu pro paměťový kontroler a to, co se ušetří na jeho napájení i napájení pamětí se může využít pro samotný čip. Na druhou stranu tu také máme řádově více paměti L1 cache. 
 
Groq TSP pak má být velice výkonný v trénování a provozu hlubokých neurálních sítí, což je ale také v podstatě jediné jeho zaměření na rozdíl od všestranných GPU. V případě ResNet-50 tak dokáže vykonat 20.400 I/S (inferences/s nezávisle na batch size) s latencí jen 0,05 ms, zatímco NVIDIA V100 dosáhne 7.907 I/S (batch size 128) s latencí 16 ms, anebo 1.156 I/S (batch 1) při 0,87 ms. Potenciální problém čipu od Groq je ovšem ten, že pokud modelu neurální sítě přestane stačit jeho cache, bude v podstatě nepoužitelný, protože na rozdíl od grafických karet s jejich gigabajty rychlé operační paměti nemá už vůbec nic. 
 
Aktuálně jsou Groq TSP k dispozici v rámci Nimbix Cloud.  
 
Zdroj: TechSpot


Ceny souvisejících / podobných produktů:


reklama
Nejnovější články
TSMC si vyhradí část produkce pro automotive, důvodem jsou americké sankce TSMC si vyhradí část produkce pro automotive, důvodem jsou americké sankce
Tchaj-wanské Ministerstvo financí ohlásilo, že se dohodlo se společností TSMC na tom, aby ta vyhradila část své produkce výrobě čipů využívaných v automobilech. Příčina je přitom zakopána v amerických sankcích. 
Dnes, aktualita, Jan Vítek
Musk vypíše soutěž o nejlepší technologii zachytávání CO2, vítěz získá 100 mil. USD Musk vypíše soutěž o nejlepší technologii zachytávání CO2, vítěz získá 100 mil. USD
Elon Musk je znám tím, že chce pomoci lidstvu zbavit se fosilních paliv. Jedním z nových projektů bude i soutěž o nejlepší systém zachytávání oxidu uhličitého, přičemž ve hře je cena ve výši 100 milionů USD.
Včera, aktualita, Milan Šurkala7 komentářů
NVIDIA žádá výrobce, aby udávali TGP a takty mobilních grafických karet NVIDIA žádá výrobce, aby udávali TGP a takty mobilních grafických karet
NVIDIA nedávno potvrdila, že nová generace mobilních grafických karet GeForce už nebude rozdělena na základní Max-P a slabší Max-Q pro úspornější či tenčí počítače. Jak ale zákazník zjistí, co si kupuje? 
Včera, aktualita, Jan Vítek
Digitimes: Intel se firmě TSMC ještě neupsal Digitimes: Intel se firmě TSMC ještě neupsal
V posledních dnech a týdnech se mluvilo o tom, že Intel se jistojistě chystá využít výrobní kapacity firmy TSMC k výrobě procesorů či snad dalších produktů, ovšem dle Digitimes žádná taková dohoda ještě neexistuje. 
Včera, aktualita, Jan Vítek1 komentář
Cyberpunk 2077 dostal patch na verzi 1.1, herní vylepšení přijdou později Cyberpunk 2077 dostal patch na verzi 1.1, herní vylepšení přijdou později
Studio CD Projekt Red o víkendu vypustilo do světa první velkou záplatu pro Cyberpunk 2077, která verzi hry povýší na 1.1 a je určena pro PC, konzole i Stadii. Jde především o ladění, opravy, přičemž herní vylepšení ještě nečekejme. 
Včera, aktualita, Jan Vítek3 komentáře