Intel se v detailech rozpovídal o AI kartách Nervana

Karty s akcelerátory Nervana jsou jedno ze želízek v ohni umělé inteligence, které si připravuje společnost Intel. Ta je představila na Hot Chips 31, a to ve dvou podobách - Inference a Training. V čem se liší?

Reklama

Systémy pro AI a strojové učení jsou jeden z hlavních motorů vývoje v IT průmyslu, ostatně je to dobře vidět na tom, jaký hardware se pro ně vyvíjí. Patří mezi něj i akcelerátory Nervana firmy Intel, který je ukázal i na Hot Chips 31.

Intel se v detailech rozpovídal o AI kartách Nervana

Máme tu přitom dva produkty, a sice NNP-I 1000 (Spring Hill) a NNP-T (Spring Crest), které jsou určeny pro dva různé účely. Druhý je pro Training, čili trénování neuronových sítí, které pak budou už jako vytrénované sítě provozovány na první (Inference). To přitom třeba ve světě GPU zvládá jeden a ten samý hardware, takže to vypadá, že Intel si připravil dva různé kvůli efektivitě či kvůli náročnosti. Vytrénovat síť je totiž výpočetně daleko náročnější než ji následně provozovat.

Spring Crest NNP-T tak bude to výkonnější zařízení, které bude založeno na tensorových jádrech a pamětech typu HBM a dále se zde počítá s rychlým síťovým rozhraním a pamětí SRAM přímo na čipu. Jde přitom o čip postavený na 16nm technologii ve firmě TSMC, takže Intel zde nepoužívá vlastní výrobní kapacity. Jde o čip o velikosti 680 mm² na interposeru o velikosti 1200 mm² a celá sestava i se 4x 8GB paměťmi HBM2-2400 se skládá z 27 miliard tranzistorů. Celkem tu je pak 24 výpočetních jednotek sestávajících z tensorových jader (TPC - Tensor Processing Cluster) na taktu 1,1 GHz, pak se dozvíme o 64linkovém rozhraní SerDes HSIO s 3,58 Tb/s propustnosti a celá karta využívá rozhraní PCIe 4.0 x16. Předpokládaná spotřeba přitom není ani tak vysoká a má se pohybovat mezi 150 a 250 W, což bude možné uchladit bez problémů.

TSMC pro sestavení čipu využil vlastní technologii CoWoS (Chip-on-Wafer-on-Substrate), která se týká pouzdření a jde o konkurenci pro intelovskou vlastní EMIB.

Spring Hill už je podstatně jednodušší hardware se spotřebou mezi 10 a 50 W a jak ukazuje obrázek nahoře, výsledná karta se je určena pro slot M.2, takže jí bude stačit i jen 4linkové rozhraní PCIe. Použitý čip je založen na dvou procesorových jádrech generace Ice Lake a dále tu máme tucet jednotek ICE (Inference Compute Engines), které dodají výkon pro běh neuronové sítě.

K tomu všemu musíme ještě připočítat 24 MB L3 cache (rozdělená do osmi skupin po 3 MB sdílených mezi CPU a ICE), podporu instrukcí AVX-512 a VNNI a také dva kontrolery pro paměti LPDDR4X připojené na místní LPDDR4 s propustností 68 GB/s. Je to tak v podstatě celý malý systém na M.2 kartičce, který může být nasazen v jakémkoliv moderním serveru s příslušným slotem (PCIe 3.0 i 4.0). Co se týče výkonu, dozvíme se o 3600 inferencí (tzn. závěrů vytvořených neuronovou sítí) za sekundu dle ResNet50, a to při TDP 10 W. To se rovná 4,8 TOPS na watt.

Obě tato řešení jsou namířena proti serverovým produktům od firmy NVIDIA a budou se snažit uspět tam, kde selhaly akcelerátory Xeon Phi.

Reklama