NVIDIA A100 Tensor core GPU NVIDIA® A100 40GB

NVIDIA A100 Tensor Core GPU は、2020年5月のNVIDIA社のイベントGTC2020で発表された新しいアーキテクチャのGPGPU製品です。TMSCの7nm プロセスルールを採用し826平方mmのダイサイズに、従来のVOLTAの倍以上である540億個のトランジスタを搭載したまさに史上最大にして最速のGPUであり、倍精度・単精度をはじめ多様な精度を兼ね備え、マルチインスタンスGPU(MIG)機能により1つのGPUで最大7つのジョブを同時に実行可能。世界で最も困難な計算に AI、データ分析、 HPC分野で驚異的な性能を発揮します。
NVIDIA A100についての詳細情報
※本製品はPassive(ファンレス)の構造であり また消費電力も高く搭載機器を選びます。搭載予定のメーカー・機種については弊社までご相談下さい。ジーデップ・アドバンスでは A100搭載対応サーバー もラインナップしています。
- PCIe Gen4
- HBM2
- 40GB
- NV-Link
- MIG
- 3年保証
MIG(Multi-instance GPU)
まず最初に注目される新機能としてはMIG「Multi-instance GPU」が挙げられます。MIGは1つのNVIDIA A100を最大で7つのインスタンスに分割して利用できる機能で、完全に分離されたそれぞれのインスタンスに広帯域のメモリ、キャッシュ、CPUコアを割り当て、規模の大小を問わずフレキシブルに様々なワークローに対応することが可能です。 例えば4インスタンスをDeeplearning学習用に割り当て、2インスタンスをHPCとして解析、そして1インスタンスを推論で利用するなど、複数のワークロードを互いのレイテンシとスループットに影響を与えることなく単一のA100 上で同時に実行できます。


様々な精度のサポート
2つ目の特徴としては様々な精度をサポートしている点です。従来のV100でサポートしていた倍精度(PF64)、単精度(PF32)に加えて、主に推論で利用するFP16、INT8、INT4とあらゆる精度をサポートしています。
CUDA® コア精度 | FP64、 FP32、 FP16、bfloat16、 INT8 |
Tensor コア精度 | FP64、 TF32、 bfloat16、 FP16、INT8、 INT4、 INT1 |
これら様々な精度のサポートにより、UC Berkeley(カリフォルニア大学バークレー校)や 米スタンフォード大学などの大学・研究機関と、Googleなどが連携して策定した機械学習の標準的なベンチマーク 「MLPerf」においてNVIDA A100は8つのカテゴリで新記録を樹立しています。
新しい演算フォーマットTF32(Tensor Float 32)
さらにNVIDIA A100ではTensor Float 32「TF32」精度をサポートしています。TF32 は、AI や一部の HPC アプリケーションを中心に利用されている行列演算 (テンソル演算) を処理するためのNVIDIA A100 の新しい演算モードです。
通常のFP32では「符号1ビット+指数部8ビット+仮数部23ビット」となります。同様にFP16は「符号1ビット+指数部5ビット+仮数部10ビット」となります。これに対してTF32は「符号1ビット+指数部8ビット+仮数部10ビット」=19ビット(ある意味FP19とも呼べる演算フォーマット)であり、まさに行列演算のためにバランスをとったFP32とFP16のハイブリッドなフォーマットと言えます。このTF32の優れているところは従来のソースコードに手を加えることなく利用可能だという点です。今までは精度を下げて演算性能を上げるためにコードの変更が必要でしたが、NVIDIAライブラリを利用したアプリケーションではコードを変更することなくFP32 と同様に動作しTF32で高速化することが可能です。

スパース性を利用した第三世代Tensorコア
NVIDIA A100ではネットワークの重みの微細化されたスパース性を利用する第 3 世代の Tensor コアが導入されています。これにより、ディープラーニングの中心となる行列の積和演算処理の精度を犠牲にすることなく、密な演算の最大 2 倍のスループットを実現。密行列の中から疎な係数行列の場合は無駄な演算を省いて、実効性能を最大2倍にする仕組みをハードワイヤードで提供しています。
これによりディープラーニング推論などFP16やINT8などの精度を利用する演算性能は従来のV100と比較して最大20倍という驚異的な性能向上を実現しました。