NVIDIA A100 特設ページ AI/Deeplearning & HPCプロダクト

2020.08.21 リポート

最新アーキテクチャ NVIDIA® A100™ まとめ

NVIDIA A100 は 2020年5月のNVIDIA社のイベントGTC2020で発表された新しいアーキテクチャのGPGPU製品です。正式名称は「NVIDIA A100 Tensor コア GPU」となり、今回から従来使われていた「TESLA」のブランドが外されています。
TMSCの7nm プロセスルールが採用され826平方mmのダイサイズに、従来のVOLTAの倍以上である540億個のトランジスタを搭載した、まさに史上最大にして最速のGPUです。このページではNVIDIA A100の特徴と性能について詳しく解説します。

NVIDIA A100 Products

・NVIDIA A100 データシートをダウンロード
・NVIDIA A100 ホワイトペーパーをダウンロード
・NVIDIA A100 搭載モデル一覧はこちらから


NVIDIA A100 の特徴
 MIG(Multi-instance GPU)
 様々な精度のサポート
 新しい演算フォーマットTF32(Tensor Float32)
 スパース性を利用した第三世代Tensorコア

従来のV100とNVIDIA A100の仕様比較
 NVIDIA A100 仕様と演算性能
 NVIDIA A100 まとめ

NVIDIA A100を使うために
 SXM4フォームファクタ
 PCI-Express X16 Gen4 フォームファクター
 NVIDIA A100搭載モデル一覧

NVIDIA A100搭載モデルの開発環境
 OSと仮想環境について
 柔軟な開発環境構築と運用支援

推論用エッジデバイス
 Inference BOX
 豊富なIOポートと拡張性

 


NVDIA A100 の特徴

NVIDIA A100には特徴的ないくつもの新しい機能が採用されています。

MIG(Multi-instance GPU)

まず最初に注目される新機能としてはMIG「Multi-instance GPU」が挙げられます。MIGは1つのNVIDIA A100を最大で7つのインスタンスに分割して利用できる機能で、完全に分離されたそれぞれのインスタンスに広帯域のメモリ、キャッシュ、CPUコアを割り当て、規模の大小を問わずフレキシブルに様々なワークローに対応することが可能です。 例えば4インスタンスをDeeplearning学習用に割り当て、2インスタンスをHPCとして解析、そして1インスタンスを推論で利用するなど、複数のワークロードを互いのレイテンシとスループットに影響を与えることなく単一のA100 上で同時に実行できます。

 

様々な精度のサポート

2つ目の特徴としては様々な精度をサポートしている点です。従来のV100でサポートしていた倍精度(PF64)、単精度(PF32)に加えて、主に推論で利用するFP16、INT8、INT4とあらゆる精度をサポートしています。

 

NVIDIA A100

NVIDIA V100

CUDA® コア精度

FP64、 FP32、 FP16、
bfloat16、 INT8

FP64, FP32、 FP16、 INT8

Tensor コア精度

FP64、 TF32、 bfloat16、 FP16、
INT8、 INT4、 INT1

FP16

これら様々な精度のサポートにより、UC Berkeley(カリフォルニア大学バークレー校)や 米スタンフォード大学などの大学・研究機関と、Googleなどが連携して策定した機械学習の標準的なベンチマーク 「MLPerf」においてNVIDA A100は8つのカテゴリで新記録を樹立しています。

DGX-A100-records-MLperf

 

新しい演算フォーマットTF32(Tensor Float 32)

tf32-precisionさらにNVIDIA A100ではTensor Float 32「TF32」精度をサポートしています。TF32 は、AI や一部の HPC アプリケーションを中心に利用されている行列演算 (テンソル演算) を処理するためのNVIDIA A100 の新しい演算モードです。

通常のFP32では「符号1ビット+指数部8ビット+仮数部23ビット」となります。同様にFP16は「符号1ビット+指数部5ビット+仮数部10ビット」となります。これに対してTF32は「符号1ビット+指数部8ビット+仮数部10ビット」=19ビット(ある意味FP19とも呼べる演算フォーマット)であり、まさに行列演算のためにバランスをとったFP32とFP16のハイブリッドなフォーマットと言えます。
上記の通りTF32 はFP16 と同じ10 ビットの仮数を使っていますが、これはAI ワークロードの精度要件には十分な余裕があることを示しており、一方で指数部はFP32 と同じ 8 ビットを採用しているので、同じ数値範囲をサポートすることができます。
この組み合わせにより、TF32 は 単精度演算でディープラーニングや多くの HPC アプリケーションの中心部分である大規模な積和演算処理をするための優れたフォーマットとなります。

さらに、このTF32の優れているところは従来のソースコードに手を加えることなく利用可能だという点です。今までは精度を下げて演算性能を上げるためにコードの変更が必要でしたが、NVIDIAライブラリを利用したアプリケーションではコードを変更することなくFP32 と同様に動作しTF32で高速化することが可能です。

TF32_20X

(TF32を利用することによりAI性能が最大20倍高速化)

 

スパース性を利用した第三世代Tensorコア

NVIDIA A100ではネットワークの重みの微細化されたスパース性を利用する第 3 世代の Tensor コアが導入されています。これにより、ディープラーニングの中心となる行列の積和演算処理の精度を犠牲にすることなく、密な演算の最大 2 倍のスループットを実現。密行列の中から疎な係数行列の場合は無駄な演算を省いて、実効性能を最大2倍にする仕組みをハードワイヤードで提供しています。
れによりディープラーニング推論などFP16やINT8などの精度を利用する演算性能は従来のV100と比較して最大20倍という驚異的な性能向上を実現しました。

INSIDE A100 SPARSE TENSOR CORE

 


従来のV100とNVIDIA A100の仕様比較

ここで従来のGPU NVIDIA V100(旧名称TESLA V100)との比較をしながらNVIDIA A100の特徴をまとめてみましょう。

NVIDA A100 仕様と演算性能

下の表で分かる通り、製造プロセスの微細化とダイサイズの増大により従来の倍以上の半導体数を搭載していますが、特筆すべきは増強分のトランジスタを、CUDAコアだけでなくTensorコアにも割いているということです。従来通り倍精度FP64をサポートするCUDAコアも増強していますが、Tensorコアも含めバランス良く幅広い精度をサポートするための改良になっていると言えるでしょう。

 

NVIDIA A100 SMX

NVIDIA V100 SMX

GPU architecture

Ampere

Volta

GPU prosess

TSMC 7nm

TSMC 12nm

Die size

826mm2

815mm2

Transistor

54billion

21.1billion

FP64 CUDA cores

3456

2560

FP32 CUDA cores

6912

5120

Tensor cores

432

640

Streaming Multiprocessors

108

80

Peak FP64

9.7 TFLOPS

7.8TFLOPS

Peak FP64 Tensor Core

19.5 TFLOPS

 

Peak FP32

19.5 TFLOPS

15.7TFLOPS

Peak FP16

78 TFLOPS

 

Peak BF16

39 TFLOPS

 

Peak TF32 Tensor Core

156 TFLOPS|312 TFLOPS※

 

Peak FP16 Tensor Core

312 TFLOPS|624 TFLOPS※

 

Peak BF16 Tensor Core

312 TFLOPS|624 TFLOPS※

 

Peak Mixd precision Tensor Core

312 TFLOPS|624 TFLOPS※

125 TFLOPS

Peak INT8 Tensor Core

624 TFLOPS|1248 TOPS※

 

Peak INT4 Tensor Core

1248 TFLOPS|2496 TOPS※

 

MAX TDP

400W

300W

NVIDIA A100 まとめ

●TSMC 7nmプロセス
●54億のトランジスタ
●増強されたCUDAコアとTensorコア
●MIGで7つのインスタンスに分割可能
●FP64からINT4まであらゆる精度をサポート
●FP64TensorCoreやTF32、BF16など新しい演算フォーマットに対応
●消費電力は400wと少し高め


NVIDIA A100を使うために

このように新しい機能と優れたパフォーマンスを実現するNVIDIA A100ですが、それではNVIDIA A100を利用するためにどのようなサーバーを選択すればよいのでしょうか。NVIDIA A100には2種類のフォームファクターが用意されています。
1つは「SXM(SXM4)」でもう一つは「PCI-Express(PCI-Express x16 Gen4)」です。

SXM4フォームファクター

NVIDIA A100

SXMは基板形状のフォームファクターであり、最大600GB/sを実現するNVIDIA NVLink®、NVIDIA NVSwitch™という高速広帯域なGPU相互間通信が可能です。主にNVIDIA DGXやNVIDIAがOEMベンダーへ提供するHGXなどのサーバーボードとセットで製造販売されおり原則GPU単体で入手、増設することはできません。

 

 

PCI-Express X16 Gen4 フォームファクター

A100_PCIe

一方でPCI-Express(PCIe)のA100は従来のPCI-Expresスロットに搭載できる形状であり、64GB/sの帯域を実現するPCIe Gen4に対応しています。こちらはカード単位で入手が可能で、対応しているサーバー・ワークステーションに搭載して利用することが可能です。
また、PCI-Express版のNVIDIA A100はTDPが250Wに抑えられており持続的な負荷がかかった場合は性能(クロック)を10~50%落とすキャップがあり、そのため公称の主要アプリケーション実行性能はSXMの100%に対してPCIeのA100は90%となっています。

 

 


NVIDIA A100搭載モデル一覧

NVIDIA DGX A100を筆頭にSMXフォームファクタの4GPU、8GPUベースのHGXモデルを用意しています。またPCI-Express Gen4 対応のGPUサーバーもラインアップしており、こちらはより柔軟な構成が構築可能です。

 

 

HGX-SM2U/

4G-A100

GSV-4U/

8G-A100

HGX-IN4U/

8G-A100

HGX-SM4U/

8G-A100

DGX A100 
HGX-SM2U4G-A100_1 GSV-4U8G-A100_1 HGX-IN4U8G-A100 HGX-SM4U8G-A100  NVIDIA DGX A100

GPU

NVIDIA A100

4基 

NVIDIA A100

1~8基

NVIDIA A100

8基

NVIDIA A100

8基

NVIDIA A100

8基

GPUフォームファクター

 SXM4  PCI-Express Gen4 SXM4 SXM4 SXM4

GPU間通信

 NVLink 400GB/sec  PCIe Gen4  64GB/sec NVSwich 600GB/Sec  NVSwich 600GB/Sec  NVSwich 600GB/Sec 

CPU

EPYC7002シリーズから選択 2基  EPYC7002シリーズから選択 2基  EPYC7002とXeonSCから選択 2基 

EPYC7002シリーズから選択 2基 

EPYC 7742 2基(128コア/2.25GHz) 

メモリ

 最大8TB  最大8TB 最大3TB   最大8TB 標準1TB 最大2TB 

ストレージ 

 2.5” SAS/SATA/

NVMe x最大4基

2.5” SAS/SATA/

NVMe x最大25基 

M.2 NVMe x最大2基

2.5” SAS/SATA x最大8基

 

2.5” SAS/SATA/

NVMe x最大6基 

OS: 1.92TB M.2 NVMe x2 RAID-1

DATA: 3.84TB U.2 NVMe x4 RAID-0

3.84TB x8 RAID-0へ増設可能

 

LAN

10GbE x2 ,  1GbE IPMI  1GbE x2 ,  1GbE IPMI  10GbE x2 ,  1GbE IPMI   10GbE x2 ,  1GbE IPMI  1GbE x2 ,  1GbE IPMI

Infiniband

オプション  オプション   オプション  オプション

Connect X-6 HDR 10ポート

ストレージ用 2ポート

クラスタ用 8ポート

 

拡張スロット

1 PCIe Gen4 x16(LP)

1 PCIe Gen4 x4(LP)

 
9 PCIe Gen4 x16 (GPU用Slot込  4 PCIe Gen4 x16   確認中  infinband増設用に1Slot

電源

2200w + 2200w Redundant PSU 

2200w + 2200w Redundant PSU 

3000w x 4  3+1 Redundant PSU   2200w x 4  3+1 Redundant PSU 3000w x 6  3+3 Redundant PSU 

サイズ

 H89mm x W437mm x L823mm  H178mm x W437mm x L737mm H175mm x W448mm x L850mm   確認中 H264mm x W482mm x L897mm 

参考価格

税別

¥7,900,000

※構成により異なります

税別

¥2,900,000~

※構成により異なります

税別¥19,800,000

※構成により異なります

Coming Soon 

税別¥25,000,000

※本価格の適用にはNVIDIAへの申請と承認が必要です。

詳細

製品詳細ページはこちら 製品詳細ページはこちら 製品詳細ページはこちら Coming Soon  製品詳細ページはこちら

特徴

2Uサイズに4基のA100を双方向400GB/secの第三世代NVLinkで接続  PCI-ExpressのA100を最大8枚搭載可能なフレキシブルサーバー  4Uサイズに8基のA100を双方向800GB/secのNVSwitchで接続   4Uサイズに8基のA100を双方向800GB/secのNVSwitchで接続

6Uサイズに8基のA100を双方向800GB/secのNVSwitchで接続

本家NVIDIAのA100搭載サーバー

 

メリット

 ●予算に合わせてCPU・メモリ・ストレージ、NIC(HCA)をカスタマイズ可能

●GPU間通信が速い。NVLink 200GB/Sec

 ●予算に合わせてCPU・メモリ・ストレージ、NIC(HCA)をカスタマイズ可能

●GPUも1枚から利用可能

●後からGPUを増設したり交換することが可能

●予算に合わせてCPU・メモリ・ストレージ、NIC(HCA)をカスタマイズ可能

●GPU間通信が速い。NVSwitch 600GB/Sec 

 ●予算に合わせてCPU・メモリ・ストレージ、NIC(HCA)をカスタマイズ可能

●GPU間通信が速い。NVSwitch 600GB/Sec

 ●GPU間通信が速い。NVSwitch 600GB/Sec

●ESP経由でNVIDIA直接のサポートが受けられる

●DGXでサーティファイドされた開発環境がNVIDIAから提供される

●クラスタ専用に8ポートのConnctX-6が標準搭載されており、DGX superpodのリファレンスもあるためスケールアウトが容易

デメリット

あとからGPUの増設交換が不可  GPU間通信が遅い→64GB/Sec あとからGPUの増設交換が不可  あとからGPUの増設交換が不可 カスタマイズ可能なのはメモリとストレージのみでかなり限定的 

 


NVIDIA A100搭載モデルのOSと開発環境

NVIDIA A100搭載モデルがサポートするOSや開発環境については以下の通りです。

OSについて

NVIDIA A100が搭載されたGPUサーバーのOSは一般的に以下の通りです。
・Ubuntu(LTS) 主にDeepLearning用途で利用
・Redhat、Cent 主にHPC用途で利用
OSネイティブで各種開発環境をセットすることも可能ですが、ここ数年はDockerなどの仮想環境上にコンテナを立てて、プロジェクトや利用者別にを隔離環境を用意する使い方が一般的になっています。

NVIDIA ではAIとHPC向けにNGCというGPU対応コンテナーを提供するソフトウェアバブを用意しています。NVIDIA GPUのユーザーは誰でも無償でWEBから入手することが可能です。https://www.nvidia.com/ja-jp/gpu-cloud/containers/
また、掲載のコンテナイメージは全てNVIDIA のDGXシリーズで実機検証が行われていますので、万が一DGXシリーズでパフォーマンスが出ない場合でも、利用ハードウェアがDGXであればNVIDIAへフィードバック(場合がよっては改善)が可能です。

ngc-gpu-cloud-diagram-843-u  

柔軟な開発環境構築と運用支援

ジーデップ・アドバンスではすべてのNVIDIA GPU搭載モデルにNGC環境をプレインストールして出荷可能です。
NVIDIA A100搭載サーバーにおいては、一般的なDocker環境だけでなくKubernetes(K8s)コンテナオーケストレーションを利用しGPUリソースの共有化と将来的な増設を容易にする環境の構築サービスも提供しています。コード管理ツールや社内専用コンテナレジストリを用意することでバージョン管理、変更履歴管理やイメージの共有も可能ですし、UIも開発者に優しく感覚的に扱いやすく、大規模計算のためのジョブ管理もブラウザで操作可能でコンテナやコンテナオーケストレーションの専門知識も不要です。

さらに、コンテナの脆弱性を開発者が利用前に検出したり、コンテナ起動中も監視を続け、不審な挙動を検知する最新のセキュリティソフトの導入も可能です。

AI_DEV_GDEP

 


推論用エッジデバイス

ジーデップ・アドバンスではNVIDIA A100搭載の学習用サーバーだけではなく、エッジ側の推論(Inference)用のデバイスもご用意しています。フィールドでのより厳しい環境での利用を措定して設計された耐久性の高い筐体に、NVIDIAの推論エンジンを搭載したモデルです。

Inference BOX

「Inference BOX®」は、NVIDIA社の「NGC-Ready」システムに認定された高性能なディープラーニング推論処理性能を備えたエッジコンピューティングデバイスで、NVIDIA社のNGCコンテナーを実行するための厳しい基準を設けた同社の一連のテストに合格しています。各種ハードウェアの組み合わせだけでなくソフトウェアスタックの各バージョンや使用環境、動作温度など多岐にわたるし視点から安定動作の検証が求められます。NVIDIA T4搭載の推論用エッジデバイスで「NGC-Ready」システムの認証を取得したのはジーデップ・アドバンス社の「Inference BOX」が国内初となります(2020年7月現在)

 inferencespeed

NVIDIA A100搭載サーバーで作成されたAI学習モデルを「Inference BOX」へ展開し、利用することが可能です。さらにTensorFlowなどのディープラーニングフレームワークや、NVIDIA® TensorRT™、NVIDIA DeepStream SDK などのNVIDIA 社が提供するソフトウェア スタック各種を有償オプションでカスタム・インストール対応することができます。監視カメラ、高解像度センサー、自動光学検査、スマート ファクトリ、その他のAIoT組込みシステムといった高度な推論性能が要求されるAIシステムに最適な性能を誇っています。

InferenceBOX

豊富なIOポートと拡張性

 

Inference BOXは、豊富なI/Oポート各種センサーに対応した多様なインターフェースや通信方式に対応し、さらにオプションで多彩なI/O接続を用意しています。最大12ポートのLAN、10ポートのPoE LAN、10ポートのCOM、16ポートのDIOを選択・接続することが可能です。

inferencebox_fr

gif

 


ジーデップ・アドバンスでは様々なタイプの NVIDA A100 搭載サーバーをお客様のご予算やご利用方法に合わせてご提案いたします。またNVIDIA DGX A100をリモートで実機検証できる利用してテストドライブ環境もご用意しています。GPUサーバー・ワークステーションのご導入はお気軽にご相談ください。

 

Copyright©GDEP ADVANCE,Inc. All Rights reserved.

TOPへ