Tesla má vlastní AI čipy D1: 50 mld. tranzistorů a škálování až na 1,1 ExaFLOPS

22.8.2021, Jan Vítek, aktualita

Muskova Tesla se už nechce spoléhat jen na cizí hardware, a tak si vytvořila vlastní čipy. Pomalounku a polehounku však rozhodně nezačala, neboť její D1 je tvořen cca 50 miliardami tranzistorů. Co umí?

Tesla AI Day je nejvhodnější událost pro představení takového čipu, který bude pochopitelně určen pro trénink systémů umělé inteligence. D1 byl vytvořen v rámci projektu Dojo.

Pozoruhodné jsou přitom základní vlastnosti samotného čipu D1, který obsahuje přibližně 50 miliard tranzistorů a je tvořen 7 nm procesem a dle THW má jít o výrobu v TSMC, jak se dalo předpokládat. Čili můžeme pro srovnání využít čip NVIDIA A100 tvořený 7nm procesem rovněž v TSMC, který má o cca 4 miliardy čipů více, ovšem na ploše 826 mm². D1 má přitom plochu jen 645 mm², což znamená, že jeho návrh je z hlediska využití plochy čipu tranzistory efektivnější. D1 je ostatně jen o trošku větší než herní GA102 (628 mm²), který má přitom "pouze" 28,2 mld. tranzistorů, ale zřejmě také mnohem rozmanitější hardware, zatímco D1 vypadá na velkou matici stejných jader propojenou cca 18 kilometry spojů.

Ostatně se dozvídáme o 354 uzlech pro trénování AI založených na 64bitových superskalárních CPU po čtyřech jádrech. Tato jádra zvládají výpočty v celé řadě formátů včetně FP32, BFP16, CFP8, INT32, INT16 a INT8 a pokud jde o výkon, v FP32 to je 22,6 TFLOPS na jeden D1 a v BF16 či CFP8 pak 362 TFLOPS. V obou případech je D1 rychlejší než A100 (19,5 a 312 TFLOPS) a v FP32 se pak značně přibližuje čipu AMD MI100 (7nm, 750 mm², 23,1 TFLOPS).

Vypadá to tak, že si Tesla vytvořila s jistým zpožděním oproti konkurenci plně srovnatelné řešení pro AI, ovšem jde především o to, jakým způsobem ho nasadí. D1 totiž mohou být propojeny do jednoho celku pomocí Dojo Interface Processor a jde o výsledné Training Tile (TT), takže jde tu opět o dlaždice, ovšem ve zcela jiném smyslu a podobě, než předvádí Intel ve svých Ponte Vecchio.

Jde tu o sestavu 25 čipů D1 (5x5) a že ty mají jen samy o sobě TDP 400 W, budou na jedné straně potřebovat silné napájení a na straně druhé výkonné chlazení schopné odvést až 15 kW odpadního tepla. Výsledné sestavy s výkonem 9 PFLOPS v BF16/CFP8 (aktuálně D1 pracují na cca 2 GHz) pak mohou být dále skládány vedle sebe a na každé straně je připraveno rozhraní s propustností 9 TB/s.

Tesla tak mohla představit i své plány na vytvoření celého AI superpočítače zvaného ExaPOD. Ten má být založen na 120 TT, čili přesně 3000 čipech D1 s 1.062.000 výpočetními uzly a výkonem 1,1 ExaFLOPS v FP16/CFP8. Pokud by byl zprovozněn ihned, stal by se bezpečně nejvýkonnějším systémem svého druhu. Tesla také mluví o 4násobku výkonu při stejných nákladech a 5x menší ploše ve srovnání se systémy založenými na hardwaru firmy NVIDIA, které aktuálně sama využívá.

Zdroj: Tesla (YT), VideoCardz