Šestnáct tisíc NVIDIA A100 bude sloužit v novém AI superpočítači firmy Meta
25.1.2022, Jan Vítek, aktualita
Společnost Meta (býv. Facebook) se rozhodla nechat si postavit nový superpočítač učený se zaměřením na umělou inteligenci. Hlavní úlohu tak v něm budou hrát tisíce akcelerátorů NVIDIA A100 generace Ampere.
Meta si tak nechá postavit superpočítač zvaný AI Research SuperCluster (RSC), o jehož umístění se zatím nic nedozvíme. Nicméně někde musí být, neboť jeho stavba započala už dříve a nyní je RSC částečně funkční a vybavený prvními 760 systémy NVIDIA DGX A100, které obsahují celkem 6080 GPU A100. Meta tu navazuje na svůj starší systém z roku 2017, který byl postaven na 22 tisících GPU NVIDIA V100 generace Volta.
A už na aktuální verzi byly provedeny první benchmarky, které ukázaly, že ta je dnes výrazně výkonnější než starší systém. Systémy počítačového vidění pracují 20x rychleji, NVIDIA Collective Communication Library (NCCL) funguje 9x rychleji a AI model s desítkami miliard parametrů může být vytrénován za cca tři týdny, čili asi třikrát rychleji.
Dokončený AI Research SuperCluster tak bude vybaven 16 tisíci GPU NVIDIA A100 propojených pomocí InfiniBand (NVIDIA Quantum 1600 Gb/s), čili přibyde dalších 1240 DGX, a to někdy v červenci tohoto roku. V rámci úložného systému pak bude v různých výkonnostních úrovních k dispozici později až cca 1 exabajt prostoru a potřebná data budou do systému ládována s propustností 16 TB/s. Nyní se počítá konkrétně se 175 PB v systému Pure Storage FlashArray, 10 PB v Pure Storage FlashBlade a 46 PB v cache storage systému Penguin Computing Altus.
Meta přitom klade důraz především na spolehlivost, neboť různé experimenty budou zpracovávány i dlouhou řadu týdnů. Systém RSC bude přitom kompletně izolován od Internetu, což znamená, že veškerá data budou muset nejdříve projít přes datové servery firmy Meta. Důvodem je to, že RSC bude zpracovávat především interní firemní data a ne veřejná, čili tu je vyšší důraz na zabezpečení. Do toho spadá i šifrování veškerých ukládaných dat, která budou dešifrována až v paměti těsně před zpracováním.