NVIDIA Tesla P100 pro PCIe přichází s 16 nebo 12 GB HBM2
21.6.2016, Jan Vítek, aktualita

Společnost NVIDIA oficiálně představila akcelerátor Tesla P100 ve verzi pro rozhraní PCI Express x16 a podobě grafické karty. Zákazníci se mohou těšit na 12GB a 16GB verze s paměťmi HBM2, které by měly mít shodné TDP 250 W.
Tesla P100 byla představena již dříve, ale jen jako verze s rozhraním Mezzanine, kterou vidíme na následující fotografii. NVIDIA ale pochopitelně nezapomněla ani na rozhraní PCI Express x16, pro něž už také připravila akcelerátor Tesla P100, a to ve dvou verzích. První z nich bude mít 16 GB paměti HBM2 a druhá 12 GB stejné paměti. Z toho ale vyplývá i to, že se bude lišit jejich propustnost, takže první verze dosáhne 720 GB/s (stejně jako prvotní verze pro Mezzanine) a druhá pak 540 GB/s.

NVIDIA se chlubí, že tyto akcelerátory jsou schopny nabídnout až 30násobný výkon oproti donedávna aktuální generaci a tento výkon poslouží především v datových centrech a obecně v oblasti HPC (High Performance Computing), kde přijde vhod také zbrusu nové rozhraní NVLink.

Nové akcelerátory jsou založeny na 16nm čipu generace Pascal, který je velký 610 mm2 a tvoří jej 15,3 miliard tranzistorů. Z těch se skládá celkem 3584 CUDA jader, přičemž čip GP100 jich ale může mít maximálně až 3840. NVIDIA přitom přepracovala jednotky SM (Streaming Multiprocessor), které nyní nesou jen 64 CUDA jader, jež tak mají k dispozici více jiných hardwarových prostředků. Na detaily o GP100 jsme se ostatně už podívali ve starší aktualitě.

Ne všechny akcelerátory Tesla P100 ale budou využívat NVLink. Pokud ano, pak nabídnou výkon 5,3 TFLOPS v FP64, 10,6 TFLOPS v FP32 a 21,2 TFLOPS v FP16 (double, single a half precision). NVLink zde přidá k propustnosti přes rozhraní PCI Express také svých 60 GB/s a platí to pouze pro 16GB karty s propustností 720 GB/s. Tesla P100 pro PCI Express a bez podpory NVLink budou mít nastaveny nižší takty a slibují výkon 4,7 TFLOPS, 9,3 TFLOPS a 18,7 TFLOPS.

Zdroj: wccftech

NVIDIA se chlubí, že tyto akcelerátory jsou schopny nabídnout až 30násobný výkon oproti donedávna aktuální generaci a tento výkon poslouží především v datových centrech a obecně v oblasti HPC (High Performance Computing), kde přijde vhod také zbrusu nové rozhraní NVLink.

Nové akcelerátory jsou založeny na 16nm čipu generace Pascal, který je velký 610 mm2 a tvoří jej 15,3 miliard tranzistorů. Z těch se skládá celkem 3584 CUDA jader, přičemž čip GP100 jich ale může mít maximálně až 3840. NVIDIA přitom přepracovala jednotky SM (Streaming Multiprocessor), které nyní nesou jen 64 CUDA jader, jež tak mají k dispozici více jiných hardwarových prostředků. Na detaily o GP100 jsme se ostatně už podívali ve starší aktualitě.

Ne všechny akcelerátory Tesla P100 ale budou využívat NVLink. Pokud ano, pak nabídnou výkon 5,3 TFLOPS v FP64, 10,6 TFLOPS v FP32 a 21,2 TFLOPS v FP16 (double, single a half precision). NVLink zde přidá k propustnosti přes rozhraní PCI Express také svých 60 GB/s a platí to pouze pro 16GB karty s propustností 720 GB/s. Tesla P100 pro PCI Express a bez podpory NVLink budou mít nastaveny nižší takty a slibují výkon 4,7 TFLOPS, 9,3 TFLOPS a 18,7 TFLOPS.

NVIDIA Tesla | Tesla K40 (PCI-Express) | Tesla M40 (PCI-Express) | Tesla P100 (PCI-Express) | Tesla P100 (PCI-Express) | Tesla P100 (Mezzanine) |
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (Pascal) | GP100 (Pascal) | GP100 (Pascal) |
Výrobní proces | 28nm | 28nm | 16nm | 16nm | 16nm |
Počet tranzistorů | 7,1 miliard | 8 miliard | 15,3 miliard | 15,3 miliard | 15,3 miliard |
Velikost GPU | 551 mm2 | 601 mm2 | 610 mm2 | 610 mm2 | 610 mm2 |
Počet SM | 15 | 24 | 56 | 56 | 56 |
CUDA jader na jedno SM | 192 | 128 | 64 | 64 | 64 |
CUDA jader celkem | 2880 | 3072 | 3584 | 3584 | 3584 |
FP64 CUDA jader na SM | 64 | 4 | 32 | 32 | 32 |
FP64 CUDA jader celkem | 960 | 96 | 1792 | 1792 | 1792 |
Základní takt | 745 MHz | 948 MHz | TBD | TBD | 1328 MHz |
Max. takt | 875 MHz | 1114 MHz | 1300MHz | 1300MHz | 1480 MHz |
Výkon v FP64 | 1,68 TFLOPS | 0,2 TFLOPS | 4,7 TFLOPS | 4,7 TFLOPS | 5,3 TFLOPS |
TU (Texture Unit) | 240 | 192 | 224 | 224 | 224 |
Paměťové rozhraní | 384-bit GDDR5 | 384-bit GDDR5 | 4096-bit HBM2 | 4096-bit HBM2 | 4096-bit HBM2 |
Kapacita pamětí | 12 GB GDDR5 | 24 GB GDDR5 | 12 GB HBM2 | 16 GB HBM2 | 16 GB HBM2 |
L2 cache | 1536 kB | 3072 kB | 4096 kB | 4096 kB | 4096 kB |
TDP | 235W | 250W | 250W | 250W | 300W |
Zdroj: wccftech