NVIDIA RTX 3080/RTX3090ベンチマーク

2020.11.09 テックリポート

NVIDIA Geforce RTX3080 / RTX3090ベンチマーク

目的

NVIDIA Geforce RTX3080/RTX3090 の Deep Learningに関する性能をプラットフォームシステム毎に評価し、各GPUの世代による性能の変化に関する知見を得ることを目的とする。

ベンチマーク条件

システムは2種類、GPUはTuring世代2種類とAmpere世代2種類、計4種類を用いた。各システムにはGPUを2枚実装し、マルチGPU環境でのテストとなっている。
 フレームワークはGeforce RTX3080/RTX3090 に対応したCUDA-11.1 / cuDNN-11.1- v8.0.4.30でビルドが可能であったPytorch-1.6.0をベースとし、ベンチマークプログラムにはトレーニングとインファレンスを網羅的にテスト可能なPytorch-benchmarkを使用した。
 各ベンチマーク指標は、それ自体それぞれのテスト内部で繰り返した平均値で示されているが、その一連のベンチマークを最低2セット行い、その平均値を使用した。
 Pytorch-benchmarkにはCPUの性能評価も含まれるが、今回はGPUをターゲットとするもののみ使用した。
諸元を以下に示す。

System :
 DeepLearning BOX II (DLBox II)
 GWS-TR3/G2

System

DeepLeaerning Box II

GWS-TR3/G2

Motherboard Chipset

X299 TRX40

CPU Version

Intel(R) Core(TM) i9-7900X

AMD Ryzen Threadripper 3970X

Clock Speed

1200 MHz

3300 MHz max

2200 MHz

3700 MHz max

L3 Cache

14,080 kB

131,072 kB

Cores / Threads

10 / 20

32 / 64

Memory Size / Speed

4x 16384 MB / 2400 MT/s

8x 16384 MB / 2933 MT/s

GPU:
 GeForce RTX 2080 Ti
 Titan RTX
 GeForce RTX 3080
 GeForce RTX 3090

GPU

GeForce RTX 2080 Ti

TITAN RTX

GeForce RTX 3080

GeForce RTX 3090

PCIe

16x Gen 3

16x Gen 3

16x Gen 4

16x Gen 4

CUDA Capability

7.5

7.5

8.6

8.6

CUDA Cores

4352 (68sm x64)

4608 ‘(72sm x64)

8704 (68sm x128)

10496 (82sm x128)

Memory

11019 MiB

24220 MiB

10014 MiB

24268 MiB

Max Power

250.00 W

280.00 W

320.00 W

350.00 W

Graphics Clock

2100 MHz

2100 MHz

2100 MHz

2100 MHz

Memory Clock

7000 MHz

7001 MHz

9501 MHz

9751 MHz

Operating System:

OS

Kernel

Ubuntu 18.04.5 LTS (Bionic Beaver)

5.4.0-48-generic

Software Libraries:

Module

cmake/3.17.1

compiler/gcc-7.5.0

cuda/11.1

cudnn/11.1-v8.0.4.30

ffmpeg/4.3.1

opencv-3.4.11-gcc-7.5.0

python-3.7.7

pytorch-1.6.0

intel-perflib/2020.2

lmdb/0.9.24

nccl/2.7.8/cuda-11.1

openmpi/4.0.5/gcc-7.5.0.lp

protobuf/3.13.0

pytorch-benchmark (git 86a5e8f80d249dbc47a6a2ed9911ecc9df808fb5  2020-10-03)

 

結果

結果は、各システム上のそれぞれのパフォーマンス指標をRTX 2080 Tiの値を100%とした相対値で示した。数字が大きいほど性能が高いことを意味する。例えば相対性能200%は単純に基準に比べて2倍高速という意味である。
ベンチマーク指標のうち以下のテストは毎回の値のばらつきが大きすぎ、信用できないため結果からは除外した。
test_train[tacotron2-cuda-eager]
test_eval[tacotron2-cuda-eager]
この他にも多少ばらつきが大きめの指標も存在するが、ここでは全体の傾向としてとらえるため、結果に含めてある。

Figure 1  DeepLearningBox II Training Relative Performance

Figure 1 DeeplearningBox II Training Relative Performance

Figure 2  GWS-TR3/G2 Training Relative Performance

Figure 2 GWS-TR3G2 Training Relative Performance

Figure 3  DeepLearningBox II Inference Relative Performance

Figure 3 DeeplearninBox II Inference Relative Performance

Figure 4  GWS-TR3/G2 II Inference Relative Performance

Figure 4 GWS-TR3G2 II Inference Relative Performance

Figure 5 All GPU / All System Relative Performance

GeforceRTX3080/RTX3090ベンチマーク5

Figure 6 System Relative Performance

GeforceRTX3080/RTX3090ベンチマーク5

 

考察

トレーニング、インファレンスとも Super_SloMo straganmocoなどは Geforce RTX3080/RTX3090の性能が大きく寄与しています。それ以外のテストについては現在自然言語処理などで多用されている BERTも含め、新しいAmpereアーキテクチャGPUへの最適化についてもう少し時間が要する結果となっています。
一方、システムによる性能差もかなり大きく、Figure-8は使用した全てのGPUの性能値を平均した場合のシステムによる性能差を示していますが、ここから見られるように、総じて GWS-TR3/G2 はコストパフォーマンスが高いモデルであることがお判りいただけます。
また、DeepLearningBOX IIもインテル製CPUGen3PCI-Expressバスの組み合わせではありますが、実ベンチとしてはトレーニング、インファレンス双方においておいても、また拡張性という部分でも充分に検討に値するスコアを出しています。

結論

全てのトレーニングやインファレンスが新しいGPUアーキテクチャ(Ampere)に対応するにはもう少し時間が掛かりそうですが、一部のトレーニング、インファレンスにおいてはGeforce RTX3080/RTX3090 の性能を充分に引き出しており、価格、メモリ容量など総合的に考慮しても従来のGeforce RTX2080Ti TITAN RTX と比較し Geforce RTX3080/RTX3090 を導入する効果は小さくないと考えられます。
また、システム側の影響も大きく、コストパフォーマンスという観点からも考慮し、以下の製品を当社のリコメンドとします。

■コストパフォーマンス指向
GWS-TR3/2G

■拡張性・安定性指向
DeepLearningBOXII

本レポートはPDFで入手可能です 日本語版 英語版

 

trending_flat