Cerebras uvádí AI systém v kalibru lidského mozku s celowaferovými čipy

25.8.2021, Jan Vítek, aktualita

Společnost Cerebras zaujala svět svými AI čipy, které se rozprostírají přes téměř celý 300mm wafer. Nyní na základě svého nejnovějšího modelu vytvořila systém CS-2, který je schopen provozovat AI modely s kalibrem lidského mozku.

Společnost Cerebras Systems letos na jaře ukázala waferové čipy WSE-2, které vyrábí TSMC svým 7nm procesem. Výsledné wafery se tak nerozřežou na jednotlivé čipy, naopak se nechají pohromadě (pouze se odřežou okraje), a tvoří tak v případě WSE-2 jeden čip na ploše 46.225 mm² s 2,6 biliony tranzistorů v 850 tisících AI jádrech.

A právě Cerebras nyní díky systému využívajícím WSE-2 představuje AI s kalibrem lidského mozku. Nejlepší AI systémy složené s GPU uzlů dokáží pracovat s AI modely využívajícími cca 1 bilion parametrů, zatímco lidský mozek je ovšem v tomto ohledu o dva řády výše díky svým cca 100 bilionům využívaných synapsí. Systém firmy Cerebras dokáže provozovat AI modely s až 120 biliony parametrů, což zvládne skutečně jen jeden waferový čip s 850 tisíci jádry, přičemž je možné spojit síly až 192 systémů s CS-2 a jejich 162 miliony AI jader pro mnohem vyšší výkon. K čemu jen takový výkon využít?

Omezujícím faktorem je ovšem kapacita paměti nutné pro provoz tak velkých AI modelů. Celých 40 GB SRAM, které si samotný WSE-2 nese ve svém křemíku, k tomuto účelu nestačí, a tak je nutné využívat samostatnou datovou jednotku, o níž se zpráva dál nezmiňuje. Dozvíme se ale, jak se mohou propojit jednotlivé CS-2.

Propojení jednotlivých systémů CS-2 je třeba zařídit tak, aby rozhraní nabídlo dostatečnou propustnost a latence. Nelze také jednotlivé WSE-2 umístit moc blízko sebe, neboť jde přeci jen o čipy se spotřebou kolem 15 kW, které potřebují adekvátní chlazení a napájení a pokud by měly čipy přímo spolupracovat a sdílet plnou propustnost a tok dat, který generují, bavili bychom se o desítkách petabajtů za sekundu. Proto se tu využívá jiný přístup. Na čipech jsou uloženy samotné AI modely a parametry se nachází na jednotce MemoryX schopné nabídnout 4 TB až 2,4 PB prostoru. Jde o mix pamětí DRAM a Flash v neznámém poměru.

Tím se značně omezí potřebná propustnost, přičemž komunikaci mezi CS-2 a MemoryX pak řídí jednotka SwarmX využívající firemní AI pro kompresi a celkovou redukci dat přenášených přes ethernetovou fyzickou vrstvu, ovšem s využitím speciálního protokolu. Každý SwarmX tak dokáže na sebe napojit až 32 systémů CS-2 a každý obsluhovat s propustností téměř 1 Tb/s.

Otázka je, kdo může takové systémy využít. Zatím se konkrétně dozvídáme jen o Argonne National Laboratory, která s firmou Cerebras na vývoji spolupracovala, čili to je i hlavní kandidát. Právě z Argonne zaznívá, že nyní se už budou moci zkoumat AI systémy s "velikostí" lidského mozku, což otevře nové cesty ve vývoji.

Zdroj: THW