Google TPU vs. NVIDIA Volta v ResNet-50: podobný výkon, ale Google vede v ceně
27.4.2018, Jan Vítek, aktualita
Grafické čipy postupně dostávají v oblasti AI a strojového učení silnější a silnější konkurenci, do níž patří také cloudová TPU firmy Google. Ty mají dle provedených testů poskytnout v dané oblasti podobný výkon, ovšem za mnohem nižší cenu.
Společnost NVIDIA můžeme dnes brát stále jako vedoucí firmu v oblasti vývoje AI systémů, kam patří především její hardware a také softwarová platforma, což odstartovala už před mnoha lety vypuštěním GPU G80 a platformy CUDA. Její hardware tak pohání celkem 87 superpočítačů v seznamu TOP500, zatímco Intel jich má pouze 10, což se ale samozřejmě týká těch, které využívají nějaké AI akcelerátory.
Nejmodernějším AI čipem firmy NVIDIA je její Volta V100 využívaná na akcelerátorech Tesla, která představuje velice složité řešení složené z 21,1 miliard tranzistorů, a tak není divu, že si je NVIDIA nechá velice dobře zaplatit. V obchodech ji samozřejmě nenajdeme, ale dá se zjistit, že si za ni firma účtuje cca 8000 dolarů.
My jsme o jednotkách TPU od firmy Google psali v minulém roce, kdy slibovaly výkon až 180 TFLOPS právě v oblasti AI, což obvykle znamená FP16, neboli Half-Precision. To vypadá jako pro Teslu naprosto nedosažitelný výkon, neboť i Volta V100 má v FP16 "pouze" kolem 30 TFLOPS. Jenomže tu jsou také jádra Tensor využitelná pro hluboké učení a ta nabízí výkon 120 TFLOPS a to už vypadá daleko lépe.
Bavit se ale chceme o testech od RiseML, které postavily přímo proti sobě V100 a TPUv2, respektivě čtyři Volty proti čtyřem čipům TPU tvořícím jedno Cloud TPU. Obě řešení měla k dispozici shodných 64 GB vlastní paměti a prováděla stejné úkony, a sice s modelem ResNet-50. Sledován byl hrubý výkon, přesnost a schopnost přiblížit se požadovaným výsledkům (aby byly "smysluplné", respektive konvergence algoritmu.
Je třeba také poznamenat, že lidé z RiseML dali možnost firmám NVIDIA a Google reagovat na nastavení testů i na dosažené výsledky, jež pak byly prozkoumány i nezávislými experty.
Jak je vidět, výkon TPUv2 oproti V100 klesal se snižující se batch size, což je ve strojovém učení počet trénovacích příkladů v jedné iteraci a není divu, že právě pro jednotky TPU se doporučuje 1024.
Co se týče přesnosti a konvergence, TPU na tom byla o trošku lépe s maximem na 76,4 % oproti 75,7 %, ovšem kde TPU opravdu září, je cena za splnění úkolu. V důsledku je nejdůležitější kombinace času a ceny k dosažení jisté přesnosti a pokud si vezmeme nejlepší výsledek, jehož dosáhla GPU, čili oněch 75,7 %, při použití úzce specializovaných TPU nás to bude stát 55 dolarů při čase 9 hodin (na 76,4% přesnost by to bylo 73 USD). GPU V100 to zvládnou víceméně stejně rychle, ale jejich "cena za vyřešení" je mnohem vyšší.
Na závěr je nutné dodat, že jde pouze o jeden test založený na ResNet-50, takže z něj nelze vyvozovat obecné závěry.
Zdroj: Extremetech