Groq je další z dlouhé řady startupů, které se snaží vyrobit výkonný specializovaný akcelerátor pro systémy umělé inteligence, ovšem na rozdíl od mnohých jiných už své řešení dostal na trh a jde o velice zajímavý Groq Tensor Streaming Processor (TSP) s výkonem cca 1 PetaOPS, čili 1015 operací za sekundu při spotřebě/výdeji tepla 300 W. Jde o obrovský čip, který se skládá v podstatě jen z vektorových a maticových jednotek a cache, takže tu nejsou žádné kontrolery nebo backend a díky tomu je plocha čipu maximálně využita.

TSP se dělí na 20 tzv. superlinek a ty jsou dle dokumentace (pdf) tvořeny maticovou jednotkou (320x MAC), transformační jednotkou, paměťovou jednotkou (5,5 MB), vektorovou jednotkou (16 ALU), další paměťovou jednotkou (5,5 MB), transformační jednotkou a opět maticovou (320x MAC). Vektorová jednotka tak superlinky dělí na dvě stejně vybavené "hemisféry" označované za východní a západní, které mohou pracovat téměř nezávisle na sobě.

Jednotný proud instrukcí pak jde do každé části nulté superlinky, a to 6 instrukcí pro MAC, 14 pro transformační jednotky, 44 pro paměťové a 16 pro ALU. V každém taktu pak tyto jednotky provedou své operace a přeposílají si data po 512 B bezprostředně mezi sebou. Po dokončení úlohy se pak vše s instrukcemi pošle do další superlinky, zde tedy do první supelinky a nultá dostane další práci. Instrukce se tak posílají pouze vertikálně mezi superlinkami a data samotná pouze horizontálně v rámci nich samotných.
Groq TSP | Nvidia Tesla V100 | Nvidia Tesla T4 | |
Jádra | 1 | 5120 | 2560 |
Maximální takt | 1250 MHz | 1530 MHz | 1590 MHz |
FP16 TFLOPS | 205 TFLOPS | 125 TFLOPS | 65 TFLOPS |
INT8 TOPS | 1000 TOPS | 250 TOPS | 130 TOPS |
Cache (L1) | 220 MB | 10 MB | 2,6 MB |
Operační paměť | N/A | 32 GB HBM2 | 16 GB GDDR6 |
TDP | 300W | 300W | 70W |
Proces | 14nm | 12nm | 12nm |
Velikost čipu | 725 mm² | 815 mm² | 545 mm² |
Zde pak máme přímé srovnání s čipy Tesla V100 a T4 od společnosti NVIDIA, od nichž se dané TSP od Groq liší už jen svou základní topologií, která znamená, že jde v podstatě o jedno jádro a další zásadní rozdíl je v tom, že není zapotřebí žádná operační paměť. Pokud ta není zapotřebí, jde o obrovskou výhodu jednak v tom, že se značně ušetří na celkových nákladech, dále že není potřeba vyhradit nezanedbatelnou část čipu pro paměťový kontroler a to, co se ušetří na jeho napájení i napájení pamětí se může využít pro samotný čip. Na druhou stranu tu také máme řádově více paměti L1 cache.
Groq TSP pak má být velice výkonný v trénování a provozu hlubokých neurálních sítí, což je ale také v podstatě jediné jeho zaměření na rozdíl od všestranných GPU. V případě ResNet-50 tak dokáže vykonat 20.400 I/S (inferences/s nezávisle na batch size) s latencí jen 0,05 ms, zatímco NVIDIA V100 dosáhne 7.907 I/S (batch size 128) s latencí 16 ms, anebo 1.156 I/S (batch 1) při 0,87 ms. Potenciální problém čipu od Groq je ovšem ten, že pokud modelu neurální sítě přestane stačit jeho cache, bude v podstatě nepoužitelný, protože na rozdíl od grafických karet s jejich gigabajty rychlé operační paměti nemá už vůbec nic.
Aktuálně jsou Groq TSP k dispozici v rámci Nimbix Cloud.
Zdroj: TechSpot