NVIDIA A100 Tensor core GPU NVIDIA A100 80GB PCIe

こちらの製品は現在納期が未定となっております。詳しくは弊社担当営業までお問い合わせください。※新製品の NVIDIA L40S もご検討下さい。
NVIDIA A100 80GB PCIe は、2020年5月のNVIDIA社のイベントGTC2020で発表されたAmpereアーキテクチャのA100のHBM2メモリを80GBに倍増したGPGPUです。TMSCの7nm プロセスルールを採用し826平方mmのダイサイズに、従来のVOLTAの倍以上である540億個のトランジスタを搭載したまさに史上最大にして最速のGPUであり、倍精度・単精度をはじめ多様な精度を兼ね備え、マルチインスタンスGPU(MIG)機能により1つのGPUで最大7つのジョブを同時に実行可能。世界で最も困難な計算に AI、データ分析、 HPC分野で驚異的な性能を発揮します。また、40GBモデルでは1.6TB/sだったメモリ帯域も2.0TB/sと20%アップされ高速大容量の演算や学習を大きく加速します。
※アカデミック向けの特別価格をご用意しています。詳しくは弊社までお問い合わせ下さい。
※本製品はPassive(ファンレス)の構造であり また消費電力も高く搭載機器を選びます。搭載予定のメーカー・機種については弊社までご相談下さい。
製品特徴
MIG(Multi-instance GPU)

様々な精度のサポート

2つ目の特徴としては様々な精度をサポートしている点です。従来のV100でサポートしていた倍精度(PF64)、単精度(PF32)に加えて、主に推論で利用するFP16、INT8、INT4とあらゆる精度をサポートしています。
CUDA® コア精度 | FP64、 FP32、 FP16、bfloat16、 INT8 |
Tensor コア精度 | FP64、 TF32、 bfloat16、 FP16、INT8、 INT4、 INT1 |
新しい演算フォーマットTF32(Tensor Float 32)

さらにNVIDIA A100ではTensor Float 32「TF32」精度をサポートしています。TF32 は、AI や一部の HPC アプリケーションを中心に利用されている行列演算 (テンソル演算) を処理するためのNVIDIA A100 の新しい演算モードです。
通常のFP32では「符号1ビット+指数部8ビット+仮数部23ビット」となります。同様にFP16は「符号1ビット+指数部5ビット+仮数部10ビット」となります。これに対してTF32は「符号1ビット+指数部8ビット+仮数部10ビット」=19ビット(ある意味FP19とも呼べる演算フォーマット)であり、まさに行列演算のためにバランスをとったFP32とFP16のハイブリッドなフォーマットと言えます。このTF32の優れているところは従来のソースコードに手を加えることなく利用可能だという点です。今までは精度を下げて演算性能を上げるためにコードの変更が必要でしたが、NVIDIAライブラリを利用したアプリケーションではコードを変更することなくFP32 と同様に動作しTF32で高速化することが可能です。
スパース性を利用した第三世代Tensorコア
NVIDIA A100ではネットワークの重みの微細化されたスパース性を利用する第 3 世代の Tensor コアが導入されています。これにより、ディープラーニングの中心となる行列の積和演算処理の精度を犠牲にすることなく、密な演算の最大 2 倍のスループットを実現。密行列の中から疎な係数行列の場合は無駄な演算を省いて、実効性能を最大2倍にする仕組みをハードワイヤードで提供しています。
これによりディープラーニング推論などFP16やINT8などの精度を利用する演算性能は従来のV100と比較して最大20倍という驚異的な性能向上を実現しました。
.jpg)
製品仕様
アーキテクチャ | Ampere |
---|---|
プロセスルール | 7nm |
倍精度性能 | FP64 : 9.7TFLOPS / FP64 Tensor Core : 19.5TFLOPS |
単精度性能 | FP32 : 19.5TFLOPS / Tensor Float 32(TF32) : 156TFLOPS(Structural sparsity有効時312TFLOPS) |
半精度性能 | 312TFLOPS(Structural sparsity有効時624TFLOPS) |
Bfloat16 | 312TFLOPS(Structural sparsity有効時624TFLOPS) |
整数性能 | INT8 : 624TOPS(Structural sparsity有効時1,248TOPS) INT4 :1248TOPS(Structural sparsity有効時2,496TOPS) |
GPUメモリ | 80GB HBM2 |
メモリ帯域 | 2.0TB/s |
ECC | 有効 |
インターコネクト | PCI-Express Gen4 : 64GB/s 第3世代NVLink : 600GB/s(2GPUでのNVLink Bridge利用時) |
フォームファクタ | PCI-Express Gen4 : 64GB/s 第3世代NVLink : 600GB/s(2GPUでのNVLink Bridge利用時) |
マルチインスタンスGPU(MIG) | 最大7インスタンス |
最大消費電力 | 300W |
実アプリ性能 | 90% |
冷却方法 | Passive |
API | CUDA、DirectCompute、OpenCL、OpenACC |
- PCIe Gen4
- HBM2
- 80GB
- NV-Link
- MIG
- 3年保証