NVIDIA A100 Tensor core GPU NVIDIA A100 80GB PCIe

NVIDIA A100 80GB PCIe

こちらの製品は現在納期が未定となっております。詳しくは弊社担当営業までお問い合わせください。※新製品の NVIDIA L40S もご検討下さい。


NVIDIA A100 80GB PCIe は、2020年5月のNVIDIA社のイベントGTC2020で発表されたAmpereアーキテクチャのA100のHBM2メモリを80GBに倍増したGPGPUです。TMSCの7nm プロセスルールを採用し826平方mmのダイサイズに、従来のVOLTAの倍以上である540億個のトランジスタを搭載したまさに史上最大にして最速のGPUであり、倍精度・単精度をはじめ多様な精度を兼ね備え、マルチインスタンスGPU(MIG)機能により1つのGPUで最大7つのジョブを同時に実行可能。世界で最も困難な計算に AI、データ分析、 HPC分野で驚異的な性能を発揮します。また、40GBモデルでは1.6TB/sだったメモリ帯域も2.0TB/sと20%アップされ高速大容量の演算や学習を大きく加速します。

アカデミック向けの特別価格をご用意しています。詳しくは弊社までお問い合わせ下さい。
※本製品はPassive(ファンレス)の構造であり また消費電力も高く搭載機器を選びます。搭載予定のメーカー・機種については弊社までご相談下さい。
 

製品特徴

MIG(Multi-instance GPU)

特徴1MIGは1つのNVIDIA A100を最大で7つのインスタンスに分割して利用できる機能で、完全に分離されたそれぞれのインスタンスに広帯域のメモリ、キャッシュ、CPUコアを割り当て、規模の大小を問わずフレキシブルに様々なワークローに対応することが可能です。 例えば4インスタンスをDeeplearning学習用に割り当て、2インスタンスをHPCとして解析、そして1インスタンスを推論で利用するなど、複数のワークロードを互いのレイテンシとスループットに影響を与えることなく単一のA100 上で同時に実行できます。



 

様々な精度のサポート

特徴2

2つ目の特徴としては様々な精度をサポートしている点です。従来のV100でサポートしていた倍精度(PF64)、単精度(PF32)に加えて、主に推論で利用するFP16、INT8、INT4とあらゆる精度をサポートしています。

CUDA® コア精度 FP64、 FP32、 FP16、bfloat16、 INT8
Tensor コア精度 FP64、 TF32、 bfloat16、 FP16、INT8、 INT4、 INT1
これら様々な精度のサポートにより、UC Berkeley(カリフォルニア大学バークレー校)や 米スタンフォード大学などの大学・研究機関と、Googleなどが連携して策定した機械学習の標準的なベンチマーク 「MLPerf」においてNVIDA A100は8つのカテゴリで新記録を樹立しています。
 

 

新しい演算フォーマットTF32(Tensor Float 32)

特徴3

さらにNVIDIA A100ではTensor Float 32「TF32」精度をサポートしています。TF32 は、AI や一部の HPC アプリケーションを中心に利用されている行列演算 (テンソル演算) を処理するためのNVIDIA A100 の新しい演算モードです。

通常のFP32では「符号1ビット+指数部8ビット+仮数部23ビット」となります。同様にFP16は「符号1ビット+指数部5ビット+仮数部10ビット」となります。これに対してTF32は「符号1ビット+指数部8ビット+仮数部10ビット」=19ビット(ある意味FP19とも呼べる演算フォーマット)であり、まさに行列演算のためにバランスをとったFP32とFP16のハイブリッドなフォーマットと言えます。このTF32の優れているところは従来のソースコードに手を加えることなく利用可能だという点です。今までは精度を下げて演算性能を上げるためにコードの変更が必要でしたが、NVIDIAライブラリを利用したアプリケーションではコードを変更することなくFP32 と同様に動作しTF32で高速化することが可能です。



 

スパース性を利用した第三世代Tensorコア


NVIDIA A100ではネットワークの重みの微細化されたスパース性を利用する第 3 世代の Tensor コアが導入されています。これにより、ディープラーニングの中心となる行列の積和演算処理の精度を犠牲にすることなく、密な演算の最大 2 倍のスループットを実現。密行列の中から疎な係数行列の場合は無駄な演算を省いて、実効性能を最大2倍にする仕組みをハードワイヤードで提供しています。
これによりディープラーニング推論などFP16やINT8などの精度を利用する演算性能は従来のV100と比較して最大20倍という驚異的な性能向上を実現しました。

 

製品仕様

 
アーキテクチャ Ampere
プロセスルール 7nm
倍精度性能 FP64 : 9.7TFLOPS / FP64 Tensor Core : 19.5TFLOPS
単精度性能 FP32 : 19.5TFLOPS / Tensor Float 32(TF32) : 156TFLOPS(Structural sparsity有効時312TFLOPS)
半精度性能 312TFLOPS(Structural sparsity有効時624TFLOPS)
Bfloat16 312TFLOPS(Structural sparsity有効時624TFLOPS)
整数性能 INT8 : 624TOPS(Structural sparsity有効時1,248TOPS)
INT4 :1248TOPS(Structural sparsity有効時2,496TOPS)
GPUメモリ 80GB HBM2
メモリ帯域 2.0TB/s
ECC 有効
インターコネクト PCI-Express Gen4 : 64GB/s
第3世代NVLink : 600GB/s(2GPUでのNVLink Bridge利用時)
フォームファクタ PCI-Express Gen4 : 64GB/s
第3世代NVLink : 600GB/s(2GPUでのNVLink Bridge利用時)
マルチインスタンスGPU(MIG) 最大7インスタンス
最大消費電力 300W
実アプリ性能 90%
冷却方法 Passive
API CUDA、DirectCompute、OpenCL、OpenACC
  • PCIe Gen4
  • HBM2
  • 80GB
  • NV-Link
  • MIG
  • 3年保証

ご購入前のお問い合わせ

trending_flat