NVIDIA A100 特設ページ AI/Deeplearning & HPCプロダクト
最新アーキテクチャ NVIDIA® A100™ まとめ
NVIDIA A100 は 2020年5月のNVIDIA社のイベントGTC2020で発表された新しいアーキテクチャのGPGPU製品です。正式名称は「NVIDIA A100 Tensor コア GPU」となり、今回から従来使われていた「TESLA」のブランドが外されています。
TMSCの7nm プロセスルールが採用され826平方mmのダイサイズに、従来のVOLTAの倍以上である540億個のトランジスタを搭載した、まさに史上最大にして最速のGPUです。このページではNVIDIA A100の特徴と性能について詳しく解説します。
・NVIDIA A100 データシートをダウンロード
・NVIDIA A100 ホワイトペーパーをダウンロード
・NVIDIA A100 搭載モデル一覧はこちらから
NVIDIA A100 の特徴
MIG(Multi-instance GPU)
様々な精度のサポート
新しい演算フォーマットTF32(Tensor Float32)
スパース性を利用した第三世代Tensorコア
従来のV100とNVIDIA A100の仕様比較
NVIDIA A100 仕様と演算性能
NVIDIA A100 まとめ
NVIDIA A100を使うために
SXM4フォームファクタ
PCI-Express X16 Gen4 フォームファクター
NVIDIA A100搭載モデル一覧
NVIDIA A100搭載モデルの開発環境
OSと仮想環境について
柔軟な開発環境構築と運用支援
推論用エッジデバイス
Inference BOX
豊富なIOポートと拡張性
NVDIA A100 の特徴
NVIDIA A100には特徴的ないくつもの新しい機能が採用されています。
MIG(Multi-instance GPU)
まず最初に注目される新機能としてはMIG「Multi-instance GPU」が挙げられます。MIGは1つのNVIDIA A100を最大で7つのインスタンスに分割して利用できる機能で、完全に分離されたそれぞれのインスタンスに広帯域のメモリ、キャッシュ、CPUコアを割り当て、規模の大小を問わずフレキシブルに様々なワークローに対応することが可能です。 例えば4インスタンスをDeeplearning学習用に割り当て、2インスタンスをHPCとして解析、そして1インスタンスを推論で利用するなど、複数のワークロードを互いのレイテンシとスループットに影響を与えることなく単一のA100 上で同時に実行できます。
様々な精度のサポート
2つ目の特徴としては様々な精度をサポートしている点です。従来のV100でサポートしていた倍精度(PF64)、単精度(PF32)に加えて、主に推論で利用するFP16、INT8、INT4とあらゆる精度をサポートしています。
NVIDIA A100 | NVIDIA V100 | |
CUDA® コア精度 | FP64、 FP32、 FP16、 | FP64, FP32、 FP16、 INT8 |
Tensor コア精度 | FP64、 TF32、 bfloat16、 FP16、 | FP16 |
これら様々な精度のサポートにより、UC Berkeley(カリフォルニア大学バークレー校)や 米スタンフォード大学などの大学・研究機関と、Googleなどが連携して策定した機械学習の標準的なベンチマーク 「MLPerf」においてNVIDA A100は8つのカテゴリで新記録を樹立しています。
新しい演算フォーマットTF32(Tensor Float 32)
さらにNVIDIA A100ではTensor Float 32「TF32」精度をサポートしています。TF32 は、AI や一部の HPC アプリケーションを中心に利用されている行列演算 (テンソル演算) を処理するためのNVIDIA A100 の新しい演算モードです。
通常のFP32では「符号1ビット+指数部8ビット+仮数部23ビット」となります。同様にFP16は「符号1ビット+指数部5ビット+仮数部10ビット」となります。これに対してTF32は「符号1ビット+指数部8ビット+仮数部10ビット」=19ビット(ある意味FP19とも呼べる演算フォーマット)であり、まさに行列演算のためにバランスをとったFP32とFP16のハイブリッドなフォーマットと言えます。
上記の通りTF32 はFP16 と同じ10 ビットの仮数を使っていますが、これはAI ワークロードの精度要件には十分な余裕があることを示しており、一方で指数部はFP32 と同じ 8 ビットを採用しているので、同じ数値範囲をサポートすることができます。
この組み合わせにより、TF32 は 単精度演算でディープラーニングや多くの HPC アプリケーションの中心部分である大規模な積和演算処理をするための優れたフォーマットとなります。
さらに、このTF32の優れているところは従来のソースコードに手を加えることなく利用可能だという点です。今までは精度を下げて演算性能を上げるためにコードの変更が必要でしたが、NVIDIAライブラリを利用したアプリケーションではコードを変更することなくFP32 と同様に動作しTF32で高速化することが可能です。
(TF32を利用することによりAI性能が最大20倍高速化)
スパース性を利用した第三世代Tensorコア
NVIDIA A100ではネットワークの重みの微細化されたスパース性を利用する第 3 世代の Tensor コアが導入されています。これにより、ディープラーニングの中心となる行列の積和演算処理の精度を犠牲にすることなく、密な演算の最大 2 倍のスループットを実現。密行列の中から疎な係数行列の場合は無駄な演算を省いて、実効性能を最大2倍にする仕組みをハードワイヤードで提供しています。
これによりディープラーニング推論などFP16やINT8などの精度を利用する演算性能は従来のV100と比較して最大20倍という驚異的な性能向上を実現しました。
従来のV100とNVIDIA A100の仕様比較
ここで従来のGPU NVIDIA V100(旧名称TESLA V100)との比較をしながらNVIDIA A100の特徴をまとめてみましょう。
NVIDA A100 仕様と演算性能
下の表で分かる通り、製造プロセスの微細化とダイサイズの増大により従来の倍以上の半導体数を搭載していますが、特筆すべきは増強分のトランジスタを、CUDAコアだけでなくTensorコアにも割いているということです。従来通り倍精度FP64をサポートするCUDAコアも増強していますが、Tensorコアも含めバランス良く幅広い精度をサポートするための改良になっていると言えるでしょう。
NVIDIA A100 SMX | NVIDIA V100 SMX | |
GPU architecture | Ampere | Volta |
GPU prosess | TSMC 7nm | TSMC 12nm |
Die size | 826mm2 | 815mm2 |
Transistor | 54billion | 21.1billion |
FP64 CUDA cores | 3456 | 2560 |
FP32 CUDA cores | 6912 | 5120 |
Tensor cores | 432 | 640 |
Streaming Multiprocessors | 108 | 80 |
Peak FP64 | 9.7 TFLOPS | 7.8TFLOPS |
Peak FP64 Tensor Core | 19.5 TFLOPS |
|
Peak FP32 | 19.5 TFLOPS | 15.7TFLOPS |
Peak FP16 | 78 TFLOPS |
|
Peak BF16 | 39 TFLOPS |
|
Peak TF32 Tensor Core | 156 TFLOPS|312 TFLOPS※ |
|
Peak FP16 Tensor Core | 312 TFLOPS|624 TFLOPS※ |
|
Peak BF16 Tensor Core | 312 TFLOPS|624 TFLOPS※ |
|
Peak Mixd precision Tensor Core | 312 TFLOPS|624 TFLOPS※ | 125 TFLOPS |
Peak INT8 Tensor Core | 624 TFLOPS|1248 TOPS※ |
|
Peak INT4 Tensor Core | 1248 TFLOPS|2496 TOPS※ |
|
MAX TDP | 400W | 300W |
NVIDIA A100 まとめ
●TSMC 7nmプロセス
●54億のトランジスタ
●増強されたCUDAコアとTensorコア
●MIGで7つのインスタンスに分割可能
●FP64からINT4まであらゆる精度をサポート
●FP64TensorCoreやTF32、BF16など新しい演算フォーマットに対応
●消費電力は400wと少し高め
NVIDIA A100を使うために
このように新しい機能と優れたパフォーマンスを実現するNVIDIA A100ですが、それではNVIDIA A100を利用するためにどのようなサーバーを選択すればよいのでしょうか。NVIDIA A100には2種類のフォームファクターが用意されています。
1つは「SXM(SXM4)」でもう一つは「PCI-Express(PCI-Express x16 Gen4)」です。
SXM4フォームファクター
SXMは基板形状のフォームファクターであり、最大600GB/sを実現するNVIDIA NVLink®、NVIDIA NVSwitch™という高速広帯域なGPU相互間通信が可能です。主にNVIDIA DGXやNVIDIAがOEMベンダーへ提供するHGXなどのサーバーボードとセットで製造販売されおり原則GPU単体で入手、増設することはできません。
PCI-Express X16 Gen4 フォームファクター
一方でPCI-Express(PCIe)のA100は従来のPCI-Expresスロットに搭載できる形状であり、64GB/sの帯域を実現するPCIe Gen4に対応しています。こちらはカード単位で入手が可能で、対応しているサーバー・ワークステーションに搭載して利用することが可能です。
また、PCI-Express版のNVIDIA A100はTDPが250Wに抑えられており持続的な負荷がかかった場合は性能(クロック)を10~50%落とすキャップがあり、そのため公称の主要アプリケーション実行性能はSXMの100%に対してPCIeのA100は90%となっています。
NVIDIA A100搭載モデル一覧
NVIDIA DGX A100を筆頭にSMXフォームファクタの4GPU、8GPUベースのHGXモデルを用意しています。またPCI-Express Gen4 対応のGPUサーバーもラインアップしており、こちらはより柔軟な構成が構築可能です。
| HGX-SM2U/ 4G-A100 | GSV-4U/ 8G-A100 | HGX-IN4U/ 8G-A100 | HGX-SM4U/ 8G-A100 | DGX A100 |
---|---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() | |
GPU | NVIDIA A100 4基 | NVIDIA A100 1~8基 | NVIDIA A100 8基 | NVIDIA A100 8基 | NVIDIA A100 8基 |
GPUフォームファクター | SXM4 | PCI-Express Gen4 | SXM4 | SXM4 | SXM4 |
GPU間通信 | NVLink 400GB/sec | PCIe Gen4 64GB/sec | NVSwich 600GB/Sec | NVSwich 600GB/Sec | NVSwich 600GB/Sec |
CPU | EPYC7002シリーズから選択 2基 | EPYC7002シリーズから選択 2基 | EPYC7002とXeonSCから選択 2基 | EPYC7002シリーズから選択 2基 | EPYC 7742 2基(128コア/2.25GHz) |
メモリ | 最大8TB | 最大8TB | 最大3TB | 最大8TB | 標準1TB 最大2TB |
ストレージ | 2.5” SAS/SATA/ NVMe x最大4基 | 2.5” SAS/SATA/ NVMe x最大25基 | M.2 NVMe x最大2基 2.5” SAS/SATA x最大8基 | 2.5” SAS/SATA/ NVMe x最大6基 | OS: 1.92TB M.2 NVMe x2 RAID-1 DATA: 3.84TB U.2 NVMe x4 RAID-0 3.84TB x8 RAID-0へ増設可能 |
LAN | 10GbE x2 , 1GbE IPMI | 1GbE x2 , 1GbE IPMI | 10GbE x2 , 1GbE IPMI | 10GbE x2 , 1GbE IPMI | 1GbE x2 , 1GbE IPMI |
Infiniband | オプション | オプション | オプション | オプション | Connect X-6 HDR 10ポート ストレージ用 2ポート クラスタ用 8ポート |
拡張スロット | 1 PCIe Gen4 x16(LP) 1 PCIe Gen4 x4(LP) | 9 PCIe Gen4 x16 (GPU用Slot込 | 4 PCIe Gen4 x16 | 確認中 | infinband増設用に1Slot |
電源 | 2200w + 2200w Redundant PSU | 2200w + 2200w Redundant PSU | 3000w x 4 3+1 Redundant PSU | 2200w x 4 3+1 Redundant PSU | 3000w x 6 3+3 Redundant PSU |
サイズ | H89mm x W437mm x L823mm | H178mm x W437mm x L737mm | H175mm x W448mm x L850mm | 確認中 | H264mm x W482mm x L897mm |
参考価格 | 税別 ¥7,900,000 ※構成により異なります | 税別 ¥2,900,000~ ※構成により異なります | 税別¥19,800,000 ※構成により異なります | Coming Soon | 税別¥25,000,000 ※本価格の適用にはNVIDIAへの申請と承認が必要です。 |
詳細 | 製品詳細ページはこちら | 製品詳細ページはこちら | 製品詳細ページはこちら | Coming Soon | 製品詳細ページはこちら |
特徴 | 2Uサイズに4基のA100を双方向400GB/secの第三世代NVLinkで接続 | PCI-ExpressのA100を最大8枚搭載可能なフレキシブルサーバー | 4Uサイズに8基のA100を双方向800GB/secのNVSwitchで接続 | 4Uサイズに8基のA100を双方向800GB/secのNVSwitchで接続 | 6Uサイズに8基のA100を双方向800GB/secのNVSwitchで接続 本家NVIDIAのA100搭載サーバー |
メリット | ●予算に合わせてCPU・メモリ・ストレージ、NIC(HCA)をカスタマイズ可能 ●GPU間通信が速い。NVLink 200GB/Sec | ●予算に合わせてCPU・メモリ・ストレージ、NIC(HCA)をカスタマイズ可能 ●GPUも1枚から利用可能 ●後からGPUを増設したり交換することが可能 | ●予算に合わせてCPU・メモリ・ストレージ、NIC(HCA)をカスタマイズ可能 ●GPU間通信が速い。NVSwitch 600GB/Sec | ●予算に合わせてCPU・メモリ・ストレージ、NIC(HCA)をカスタマイズ可能 ●GPU間通信が速い。NVSwitch 600GB/Sec | ●GPU間通信が速い。NVSwitch 600GB/Sec ●ESP経由でNVIDIA直接のサポートが受けられる ●DGXでサーティファイドされた開発環境がNVIDIAから提供される ●クラスタ専用に8ポートのConnctX-6が標準搭載されており、DGX superpodのリファレンスもあるためスケールアウトが容易 |
デメリット | あとからGPUの増設交換が不可 | GPU間通信が遅い→64GB/Sec | あとからGPUの増設交換が不可 | あとからGPUの増設交換が不可 | カスタマイズ可能なのはメモリとストレージのみでかなり限定的 |
NVIDIA A100搭載モデルのOSと開発環境
NVIDIA A100搭載モデルがサポートするOSや開発環境については以下の通りです。
OSについて
NVIDIA A100が搭載されたGPUサーバーのOSは一般的に以下の通りです。
・Ubuntu(LTS) 主にDeepLearning用途で利用
・Redhat、Cent 主にHPC用途で利用
OSネイティブで各種開発環境をセットすることも可能ですが、ここ数年はDockerなどの仮想環境上にコンテナを立てて、プロジェクトや利用者別にを隔離環境を用意する使い方が一般的になっています。
NVIDIA ではAIとHPC向けにNGCというGPU対応コンテナーを提供するソフトウェアバブを用意しています。NVIDIA GPUのユーザーは誰でも無償でWEBから入手することが可能です。https://www.nvidia.com/ja-jp/gpu-cloud/containers/
また、掲載のコンテナイメージは全てNVIDIA のDGXシリーズで実機検証が行われていますので、万が一DGXシリーズでパフォーマンスが出ない場合でも、利用ハードウェアがDGXであればNVIDIAへフィードバック(場合がよっては改善)が可能です。
柔軟な開発環境構築と運用支援
ジーデップ・アドバンスではすべてのNVIDIA GPU搭載モデルにNGC環境をプレインストールして出荷可能です。
NVIDIA A100搭載サーバーにおいては、一般的なDocker環境だけでなくKubernetes(K8s)コンテナオーケストレーションを利用しGPUリソースの共有化と将来的な増設を容易にする環境の構築サービスも提供しています。コード管理ツールや社内専用コンテナレジストリを用意することでバージョン管理、変更履歴管理やイメージの共有も可能ですし、UIも開発者に優しく感覚的に扱いやすく、大規模計算のためのジョブ管理もブラウザで操作可能でコンテナやコンテナオーケストレーションの専門知識も不要です。
さらに、コンテナの脆弱性を開発者が利用前に検出したり、コンテナ起動中も監視を続け、不審な挙動を検知する最新のセキュリティソフトの導入も可能です。
推論用エッジデバイス
ジーデップ・アドバンスではNVIDIA A100搭載の学習用サーバーだけではなく、エッジ側の推論(Inference)用のデバイスもご用意しています。フィールドでのより厳しい環境での利用を措定して設計された耐久性の高い筐体に、NVIDIAの推論エンジンを搭載したモデルです。
Inference BOX
「Inference BOX®」は、NVIDIA社の「NGC-Ready」システムに認定された高性能なディープラーニング推論処理性能を備えたエッジコンピューティングデバイスで、NVIDIA社のNGCコンテナーを実行するための厳しい基準を設けた同社の一連のテストに合格しています。各種ハードウェアの組み合わせだけでなくソフトウェアスタックの各バージョンや使用環境、動作温度など多岐にわたるし視点から安定動作の検証が求められます。NVIDIA T4搭載の推論用エッジデバイスで「NGC-Ready」システムの認証を取得したのはジーデップ・アドバンス社の「Inference BOX」が国内初となります(2020年7月現在)
NVIDIA A100搭載サーバーで作成されたAI学習モデルを「Inference BOX」へ展開し、利用することが可能です。さらにTensorFlowなどのディープラーニングフレームワークや、NVIDIA® TensorRT™、NVIDIA DeepStream SDK などのNVIDIA 社が提供するソフトウェア スタック各種を有償オプションでカスタム・インストール対応することができます。監視カメラ、高解像度センサー、自動光学検査、スマート ファクトリ、その他のAIoT組込みシステムといった高度な推論性能が要求されるAIシステムに最適な性能を誇っています。
豊富なIOポートと拡張性
Inference BOXは、豊富なI/Oポート各種センサーに対応した多様なインターフェースや通信方式に対応し、さらにオプションで多彩なI/O接続を用意しています。最大12ポートのLAN、10ポートのPoE LAN、10ポートのCOM、16ポートのDIOを選択・接続することが可能です。
ジーデップ・アドバンスでは様々なタイプの NVIDA A100 搭載サーバーをお客様のご予算やご利用方法に合わせてご提案いたします。またNVIDIA DGX A100をリモートで実機検証できる利用してテストドライブ環境もご用意しています。GPUサーバー・ワークステーションのご導入はお気軽にご相談ください。
Copyright©GDEP ADVANCE,Inc. All Rights reserved.