Celowaferové AI CPU od Cerebras má rekord ve velikosti vytrénovaného modelu

22.6.2022, Jan Vítek, aktualita

Už dobře známe celowaferové AI procesory zvané WSE (Wafer Scale Engine), které tvoří společnost Cerebras. Ta má už k dispozici nové CS-2, které nyní zlomily rekord ve velikosti vytrénovaného AI modelu.

Společnost Cerebras vytváří čipy, které využívají téměř celou dostupnou plochu křemíkového waferu, čili s oříznutými okraji tak, aby vzniklo čtyřhranné pole se vzájemně propojenými čipy. Křemíkové wafery se po svém zpracování obvykle rozřežou na potřebné čipy, ale v tomto případě se naopak nechávají vcelku, a tak fungují jako jeden velký procesor. Právě proto jde o WSE, čili Wafer Scale Engine.

Nyní se dozvídáme, že na CS-2 Wafer Scale Engine byl vytrénován AI model pro NLP (Natural Language Processing), který je založen na 20 miliardách parametrů, na což by jinak musela padnout dlouhá řada akcelerátorů zapojených do jednoho systému. CS-2 by tak mohl sám zvládnout i AI model DALL-E od OpenAI, který využívá 12 miliard parametrů a je schopen na základě zadání v podobě textového či obrazového vstupu nakreslit v podstatě cokoliv, třeba krychli stvořenou z dikobrazů nebo křeslo v podobě avokáda.

Jeden systém s CS-2 je tak v podstatě roven malému superpočítači, ostatně tu jde o 7nm wafer s 2,6 biliony tranzistorů, který obsahuje 850 tisíc jader a 40 GB vlastní integrované paměti, přičemž takový wafer v zátěži spotřebuje kolem 15 kW energie. Pokud ale jeden takový čip zvládne model s 20 miliardami parametrů, v porovnání se systémem s GPU akcelerátory umí být mnohem efektivnější z hlediska spotřeby, využití prostoru a také odpadá problém rozdělení zátěže mezi stovky či tisíce výpočetních jednotek.

Na druhou stranu, na světě existují i mnohem složitější AI modely, jaké zmiňuje server Tom's Hardware, přičemž ty už jeden CS-2 nezvládne. Může jít o Deepmind Gopher s 280 miliardami parametrů, přičemž OpenAI GPT-3, který právě coby NLP model dokáže psát celé články, jež jsou těžko rozeznatelné od výplodů lidí, má 175 miliard parametrů. A samozřejmě přijdou ještě náročnější modely, které chystají v Google Brain, kde se mluví už o bilionech parametrů.

Společnost Cerebras však má k dispozici řešení, které umožní využívat velké NLP modely i v menších firmách, jež si jinak nemohou dovolit vytvořit systémy využívající stovky či tisíce GPU či jiných akcelerátorů. Právě to jim mají umožnit nové výkonnostně odškálované produkty GPT-3XL 1.3B, GPT-J 6B, GPT-3 13B a GPT-NeoX 20B, kde právě označení jako 6B či 13B značí, kolik miliard parametrů může mít trénovaný model. Výrobce slibuje také velice jednoduché nasazení a použití.