NVIDIA RTX 3080/RTX3090ベンチマーク
NVIDIA Geforce RTX3080 / RTX3090ベンチマーク
目的
NVIDIA Geforce RTX3080/RTX3090 の Deep Learningに関する性能をプラットフォームシステム毎に評価し、各GPUの世代による性能の変化に関する知見を得ることを目的とする。
ベンチマーク条件
システムは2種類、GPUはTuring世代2種類とAmpere世代2種類、計4種類を用いた。各システムにはGPUを2枚実装し、マルチGPU環境でのテストとなっている。
フレームワークはGeforce RTX3080/RTX3090 に対応したCUDA-11.1 / cuDNN-11.1- v8.0.4.30でビルドが可能であったPytorch-1.6.0をベースとし、ベンチマークプログラムにはトレーニングとインファレンスを網羅的にテスト可能なPytorch-benchmarkを使用した。
各ベンチマーク指標は、それ自体それぞれのテスト内部で繰り返した平均値で示されているが、その一連のベンチマークを最低2セット行い、その平均値を使用した。
Pytorch-benchmarkにはCPUの性能評価も含まれるが、今回はGPUをターゲットとするもののみ使用した。
諸元を以下に示す。
System :
DeepLearning BOX II (DLBox II)
GWS-TR3/G2
System | DeepLeaerning Box II | GWS-TR3/G2 |
Motherboard Chipset | X299 | TRX40 |
CPU Version | Intel(R) Core(TM) i9-7900X | AMD Ryzen Threadripper 3970X |
Clock Speed | 1200 MHz 3300 MHz max | 2200 MHz 3700 MHz max |
L3 Cache | 14,080 kB | 131,072 kB |
Cores / Threads | 10 / 20 | 32 / 64 |
Memory Size / Speed | 4x 16384 MB / 2400 MT/s | 8x 16384 MB / 2933 MT/s |
GPU:
GeForce RTX 2080 Ti
Titan RTX
GeForce RTX 3080
GeForce RTX 3090
GPU | GeForce RTX 2080 Ti | TITAN RTX | GeForce RTX 3080 | GeForce RTX 3090 |
PCIe | 16x Gen 3 | 16x Gen 3 | 16x Gen 4 | 16x Gen 4 |
CUDA Capability | 7.5 | 7.5 | 8.6 | 8.6 |
CUDA Cores | 4352 (68sm x64) | 4608 ‘(72sm x64) | 8704 (68sm x128) | 10496 (82sm x128) |
Memory | 11019 MiB | 24220 MiB | 10014 MiB | 24268 MiB |
Max Power | 250.00 W | 280.00 W | 320.00 W | 350.00 W |
Graphics Clock | 2100 MHz | 2100 MHz | 2100 MHz | 2100 MHz |
Memory Clock | 7000 MHz | 7001 MHz | 9501 MHz | 9751 MHz |
Operating System:
OS | Kernel |
Ubuntu 18.04.5 LTS (Bionic Beaver) | 5.4.0-48-generic |
Software Libraries:
Module |
cmake/3.17.1 |
compiler/gcc-7.5.0 |
cuda/11.1 |
cudnn/11.1-v8.0.4.30 |
ffmpeg/4.3.1 |
opencv-3.4.11-gcc-7.5.0 |
python-3.7.7 |
pytorch-1.6.0 |
intel-perflib/2020.2 |
lmdb/0.9.24 |
nccl/2.7.8/cuda-11.1 |
openmpi/4.0.5/gcc-7.5.0.lp |
protobuf/3.13.0 |
pytorch-benchmark (git 86a5e8f80d249dbc47a6a2ed9911ecc9df808fb5 2020-10-03) |
結果
結果は、各システム上のそれぞれのパフォーマンス指標をRTX 2080 Tiの値を100%とした相対値で示した。数字が大きいほど性能が高いことを意味する。例えば相対性能200%は単純に基準に比べて2倍高速という意味である。
ベンチマーク指標のうち以下のテストは毎回の値のばらつきが大きすぎ、信用できないため結果からは除外した。
test_train[tacotron2-cuda-eager]
test_eval[tacotron2-cuda-eager]
この他にも多少ばらつきが大きめの指標も存在するが、ここでは全体の傾向としてとらえるため、結果に含めてある。
Figure 1 DeepLearningBox II Training Relative Performance
Figure 2 GWS-TR3/G2 Training Relative Performance
Figure 3 DeepLearningBox II Inference Relative Performance
Figure 4 GWS-TR3/G2 II Inference Relative Performance
Figure 5 All GPU / All System Relative Performance
Figure 6 System Relative Performance
考察
トレーニング、インファレンスとも Super_SloMoや stragan、mocoなどは Geforce RTX3080/RTX3090の性能が大きく寄与しています。それ以外のテストについては現在自然言語処理などで多用されている BERTも含め、新しいAmpereアーキテクチャGPUへの最適化についてもう少し時間が要する結果となっています。
一方、システムによる性能差もかなり大きく、Figure-8は使用した全てのGPUの性能値を平均した場合のシステムによる性能差を示していますが、ここから見られるように、総じて GWS-TR3/G2 はコストパフォーマンスが高いモデルであることがお判りいただけます。
また、DeepLearningBOX IIもインテル製CPUとGen3のPCI-Expressバスの組み合わせではありますが、実ベンチとしてはトレーニング、インファレンス双方においておいても、また拡張性という部分でも充分に検討に値するスコアを出しています。
結論
全てのトレーニングやインファレンスが新しいGPUアーキテクチャ(Ampere)に対応するにはもう少し時間が掛かりそうですが、一部のトレーニング、インファレンスにおいてはGeforce RTX3080/RTX3090 の性能を充分に引き出しており、価格、メモリ容量など総合的に考慮しても従来のGeforce RTX2080Ti や TITAN RTX と比較し Geforce RTX3080/RTX3090 を導入する効果は小さくないと考えられます。
また、システム側の影響も大きく、コストパフォーマンスという観点からも考慮し、以下の製品を当社のリコメンドとします。
■コストパフォーマンス指向
GWS-TR3/2G
■拡張性・安定性指向
DeepLearningBOXII