Advance with you
株式会社ジーデップ・アドバンス

NVIDIA エリートパートナー

RTX 6000 AdaとRTX PRO 6000 Blackwell Max-Q ファインチューニング性能比較ベンチマーク

RTX 6000 AdaとRTX PRO 6000 Blackwell Max-Q ファインチューニング性能比較ベンチマーク|GDEP Advance
BlackwellRTX PRO 6000 Blackwell Max-Q VS Ada LovelaceRTX 6000 Ada

ファインチューニング性能比較ベンチマーク

※ 数値は当社検証環境(2026年6月)での実測値です。条件はページ下部「検証条件」をご確認ください。

Llama 3.1 8B / 70Bを用いた
LoRA・QLoRA 検証

ベンチマーク取得の背景

生成AIやLLMのファインチューニングでは、学習・評価・改善を繰り返しながら、未知のデータにも高い性能を発揮するAIモデルへと育てていきます。そのため、1回の学習速度だけでなく、限られた時間でどれだけ多くの検証サイクルを回せるかが、開発効率やAIモデルの品質を大きく左右します。
また、LLMを自社データでカスタマイズするファインチューニングでは、GPUのVRAM容量と演算性能が重要な要素となります。
そこで本ベンチマークでは、Llama 3.1 8B / 70Bを用いたLoRA・QLoRAによるファインチューニングを実施し、NVIDIA RTX PRO 6000 Blackwell Max-QとRTX 6000 Adaの実アプリケーション性能を比較しました。大規模LLMのファインチューニングにおけるMax-Qの優位性を検証しています。

※本文中の専門用語は、ページ下部の「用語説明」でわかりやすく解説しています。

比較対象のGPU

GPU以外はすべて同一構成で、この2機種を比較しました。

NVIDIA RTX 6000 Ada の製品写真
Ada LovelaceNVIDIA RTX 6000 Ada
NVIDIA RTX PRO 6000 Blackwell Max-Q の製品写真
BlackwellNVIDIA RTX PRO 6000 Blackwell Max-Q
主要スペック比較
項目RTX 6000 AdaRTX PRO 6000 Blackwell Max-Q
アーキテクチャAda LovelaceBlackwell
CUDAコア数18,17624,064
Tensorコア568基(第4世代)752基(第5世代)
メモリタイプGDDR6GDDR7
VRAM(最大メモリ容量)48GB96GB
メモリバス幅384 bit512 bit
メモリ周波数2,500 MHz1,750 MHz
メモリ帯域幅960 GB/s1,792 GB/s
単精度演算性能91.1 TFLOPS110 TFLOPS
ROPs192192
システムインタフェースPCIe 4.0PCIe 5.0
消費電力300W300W

検証結果

今回の検証では、RTX PRO 6000 Blackwell Max-Q は RTX 6000 Ada と比較し、Llama-3.1-8B では実務的なバッチサイズ(BS4〜BS8)で最大約86%、Llama-3.1-70B では最大約107%(約2.1倍)のスループット向上を確認しました。70B モデルでは VRAM 使用量が両GPUでほぼ同等(約45〜46GB)であるにもかかわらず実アプリケーション性能に大きな差が見られ、Blackwell 世代で強化された第5世代 Tensor Core や GDDR7 メモリサブシステムなどのアーキテクチャ改善が、ファインチューニング性能の向上に寄与していることを示しています。GPU以外はすべて同一構成で比較しており、公平な条件で Blackwell 世代の性能向上を実証しています。

70B の QLoRA でパフォーマンスを発揮

RTX 6000 Ada を基準(1.0倍)とした、ファインチューニング・スループットの高速化倍率。

RTX 6000 Ada 比の高速化倍率。8B BS1の1.08倍から70B BS4の2.07倍まで、モデルとバッチサイズが大きいほど倍率が拡大する横棒グラフ。
Ada比 高速化倍率(同一ワークロード・同一300W)。8B LoRA/70B QLoRA、バッチサイズ別。

小規模な学習では、両モデルとも快適に動作。真価が発揮されるのは、大規模なモデルを一度に多くのデータで学習させるような負荷の高い場面です。一方で、70B QLoRAのようにモデル規模やバッチサイズが大きい条件では、Adaに対するMax-Qの優位が拡大し、今回の検証では最大約2.1倍のスループットを確認しました。学習負荷が高い条件ほど、Max-Qのアーキテクチャ差が表れやすい傾向があります。

1.08 → 2.07学習の規模を大きくするほど差が拡大。

Llama-3.1 スループット推移比較

Llama-3.1-8Bと70Bのスループット曲線。RTX PRO 6000 Blackwell Max-Qはバッチサイズを上げるほど伸び、RTX 6000 Adaは頭打ちになる折れ線グラフ。
スループット推移(左:Llama-3.1-8B LoRA BF16/右:Llama-3.1-70B QLoRA NF4)。

8BモデルLlama-3.1-8B / LoRA BF16

両GPUともに動作しましたが、バッチサイズを上げるほどスループットの差が広がりました。バッチサイズ1ではほぼ同等でしたが、バッチサイズ4では Max-Q が Ada の約1.77倍、バッチサイズ8では約1.86倍のスループットを記録しました。また Ada はバッチサイズ2でスループットが頭打ちになったのに対し、Max-Q はバッチサイズ4まで伸び続けました。

考察

GPUの演算性能の差は、負荷が高まるほど顕在化する傾向があります。実務的なバッチサイズで使うほど、その差が出やすくなります。

70BモデルLlama-3.1-70B / QLoRA NF4

バッチサイズ1では Max-Q が Ada の約1.66倍、バッチサイズ2では約1.86倍、バッチサイズ4では約2.07倍と、バッチサイズが上がるほどスループットの差が広がりました。また VRAM の観点では、両GPUとも45〜46GB程度の使用量でほぼ同等でしたが、スループットには2倍以上の差が出ました。

考察

70Bクラスのモデルになると、VRAM使用量が拮抗していてもスループットに大きな差が生じることが確認できました。これはメモリ容量だけでなく演算性能そのものの差が直接影響していると考えられます。今後さらに大規模なモデルの活用を視野に入れるのであれば、VRAMの余裕は無視できない要素になってくると考えられます。

学習時間

Llama-3.1-70B QLoRA(BS4)における1エポックの学習時間

70B QLoRA(BS4)の学習時間。RTX 6000 Adaの6.91時間に対し、RTX PRO 6000 Blackwell Max-Qは3.36時間で約半分に短縮する横棒グラフ。
70B QLoRA(BS4) 1エポックの学習時間。

6.91h → 3.36h1回の学習が約半分に。同じ時間で2倍の試行回数を回せるため、モデル改善のスピードが上がり、研究者の時間コストも削減できます。

マルチGPU構成なら、更にパフォーマンスを発揮(理論値)

単一GPUでも約半分に短縮した学習時間は、マルチGPU構成でさらに時間短縮できます。

※ 以下は 70B QLoRA(BS4) の単一GPU実測値(約3.36時間)を起点に、スケーリング効率90%を仮定した理論上の試算です。実測値ではなく、構成・ネットワーク・並列手法により変動します。

複数GPU構成による学習時間の短縮(参考・理論値/スケーリング効率90%想定)
GPU数予想学習時間性能向上(対1GPU)
1 GPU約3.36時間(実測)1.0倍
2 GPU約1.9時間約1.8倍
4 GPU約0.9時間約3.6倍

GPUを増やすほど、1日に回せる学習・評価サイクルは大きく増加します。大規模な学習・PoC を短期間で反復できることが、マルチGPU構成の最大のメリットです。

Tensor Core・GDDR7・大容量VRAMによる性能向上

この性能差は、Blackwell 世代のメモリサブシステムと Tensor Core の改善によるものです。

上段:メモリ帯域幅1.87倍が70Bスループット2.07倍とほぼ一致。下段:70B QLoRA使用45.7GBに対しAdaは残り2.3GB、PROは残り50.3GBのVRAM余裕を示す横棒グラフ。
上:Ada比の帯域幅とスループット/下:70B QLoRA(BS4) のVRAM使用量と残り容量。

大規模モデルのファインチューニングはメモリ帯域幅が律速となります。70BモデルではVRAM使用量が両GPUで近い条件でも、スループットに約2倍の差が見られました。この性能向上は、Blackwell世代で強化されたTensor Core、GDDR7メモリサブシステム、96GBの大容量VRAMが複合的に支えています。
さらに96GBの大容量VRAMは、「できることの幅」も広げます。70B QLoRA(BS4)においてもVRAMに余力を確保できるため、バッチサイズの拡大、より長いシーケンス長への対応、複数条件での検証など、オンプレミスでの実用的なファインチューニング運用に対応しやすくなります。

注目ポイントメモリ帯域幅のスペック差に近いレンジで、実測スループットも向上

メモリ帯域幅960 → 1,792 GB/s約1.87倍
8B バッチサイズ8 スループット4.99 → 9.29 samples/sec約1.86倍
70B バッチサイズ4 スループット0.60 → 1.24 samples/sec約2.07倍

ファインチューニングのワークロードは、メモリ帯域幅が性能に影響しやすい傾向があります。今回の検証では、メモリ帯域幅が約1.87倍に向上したのに対し、8B バッチサイズ8では約1.86倍、70B バッチサイズ4では約2.07倍のスループット向上を確認しました。スペック上の帯域差に近いレンジで実性能が伸びており、GDDR7メモリサブシステムの強化が実アプリケーション性能にも表れています。

総評

8Bと70Bのいずれのモデルにおいても、Max-Q は Ada を上回るスループットを記録しました。特にバッチサイズや扱うモデルの規模が大きくなるほどその差は顕著になる傾向があり、大規模なモデルを実務で継続的に活用していく上では、VRAMの余裕を含めたGPU性能が重要な選定基準になると考えられます。

検証条件

本検証は、オンプレミス環境でのLLMファインチューニング運用を想定し、当社検証環境で実施したものです。8BモデルではLoRA、70BモデルではQLoRAを使用し、同一条件下でRTX 6000 AdaとRTX PRO 6000 Blackwell Max-Qを比較しています。掲載値は特定条件下での実測値であり、モデル、データセット、シーケンス長、バッチサイズ、ソフトウェア構成により変動します。

検証概要(前提条件)
検証概要
比較GPUNVIDIA RTX 6000 Ada / NVIDIA RTX PRO 6000 Blackwell Max-Q
対象モデルLlama 3.1 8B Instruct / Llama 3.1 70B Instruct
学習方式8B:LoRA BF16、70B:QLoRA NF4
データセット日本語instructionデータ 約15,000件
学習条件1 epoch、max sequence length 512
測定指標学習スループット samples/sec、学習時間
検証環境同一オンプレミス検証環境で比較
備考FlashAttentionおよびFP8は未使用
検証に使用したGPUサーバー GSV-IGRGB-2U4G の製品画像
検証に使用したGPUサーバー「GSV-IGRGB-2U4G」

当社のAIワークステーションでもパフォーマンスを発揮

当社のAIワークステーションは、RTX PRO 6000 Blackwell Max-Qを最大4基搭載可能な高い拡張性と、約30dBクラスの静音設計、サーバー製品では最大8GPUによる学習時間の短縮や大規模AIモデルへの対応、複数ジョブの並列実行まで幅広いAIワークロードを支え、PoCから研究開発、本番運用まで、お客様のAI開発を加速する高性能AIプラットフォームを提供します。

当社のAIワークステーション DeepLearningSTATION II の製品画像

用語説明 ― はじめての方へ

本ページに登場する専門用語を、身近な例えでわかりやすく解説します。

LLM(大規模言語モデル)とは

インターネット上の膨大なテキストから言語の仕組みを学習した汎用モデルです。本検証では meta-llama/Llama-3.1-8B-Instruct および Llama-3.1-70B-Instruct を使用しました。末尾の 8B・70B はパラメータ数(モデルの大きさ)を示しています。

8Bと70Bの違い

パラメータ数はモデルの賢さと処理能力の指標で、70B は 8B の約8.75倍の規模を持ちます。一般的にパラメータ数が多いほど複雑な質問への回答精度が高くなりますが、その分、動かすために必要な VRAM も大幅に増えます。料理に例えると、8B は家庭用コンロ、70B は業務用厨房のようなイメージで、できる料理の幅と質が変わります。

ファインチューニングとは

LLM はあらゆる分野の知識を持つ汎用モデルです。ファインチューニングは、その上に自社特有の知識やルールを追加学習させる工程で、いわば「中途採用した優秀な人材に自社の業務を覚えさせる研修」に相当します。本検証では kunishou/databricks-dolly-15k-ja(日本語の指示応答データ 15,015件)を使用しました。

LoRA と QLoRA について

ファインチューニングは本来モデル全体を書き換える作業なので、膨大な VRAM が必要になります。70B モデルをそのまま行おうとすると数百GBの VRAM が必要で、現実的ではありません。引っ越しに例えると分かりやすくなります。

通常のファインチューニングは「すべての荷物を一度に新居へ運ぶ」作業で、トラック(VRAM)が大きくないと積み切れません。LoRA は「必要な荷物だけ選んで運ぶ」やり方です。全部運ばなくていい分、小さいトラックでも対応できます。8B モデルはこれで十分 VRAM に収まるので LoRA を使っています。

QLoRA は「荷物を圧縮梱包してから必要なものだけ運ぶ」やり方です。さらにトラックの積載量を節約できます。70B モデルは荷物が膨大すぎて圧縮しないと1台に積み切れないため、QLoRA を使っています。

「8B は LoRA、70B は QLoRA」というのは、モデルの大きさに合わせた現実的な選択で、どちらも現場で広く使われている標準的な手法です。本検証では、こうした実際の現場で多く採用されている構成をそのまま採用することで、より実務に近い条件での比較を目指しました。

BF16(Brain Float 16)とは

数値の表現精度を示す形式のひとつです。精度を下げることで VRAM の使用量を抑えつつ、学習の品質はほぼ維持できます。現在の LLM ファインチューニングでは事実上の標準として広く使われています。本検証の 8B モデルにこれを採用したのも、現場での実態に合わせた選択です。

NF4(NormalFloat 4)とは

4bit という非常に低い精度でモデルを圧縮する形式です。VRAM の使用量を大幅に削減できるため、70B のような大規模モデルを現実的な VRAM 容量で動かすために使われます。QLoRA と組み合わせて使うことが一般的で、精度の低下は最小限に抑えられるよう設計されています。本検証の 70B モデルにこれを採用したのも同様の理由で、現場で最も多く使われている構成をそのまま選択しています。

VRAM とは

GPU 上のメモリで、モデルを動かすための作業スペースに相当します。大きいモデルほど多くの VRAM が必要で、不足するとそもそも動きません。

バッチサイズとは

一度に GPU に渡すデータの量です。バケツ(データセット)の水をプール(モデル)に移す作業に例えると、バッチサイズはコップの大きさにあたります。コップが大きいほど一度に運べる量が増えて効率的ですが、持つための体力(VRAM)も多く必要になります。体力が少ない GPU は小さいコップしか使えません。本検証では バッチサイズ 1/2/4/8 で計測しました。

スループット(samples/sec)とは

1秒間に処理できるデータ件数です。数値が高いほど学習が速く完了することを意味します。

※ 本ページのベンチマーク数値は、株式会社ジーデップ・アドバンスによる自社検証環境(2026年6月)での実測値であり、動作環境・設定により結果は変動します。

※ 「複数GPU構成」の予想学習時間・性能向上は、単一GPUの実測値を起点にスケーリング効率90%を仮定した理論上の試算であり、実測値ではありません。実際の値は構成・ネットワーク・並列手法により変動します。

※ NVIDIA、RTX、Blackwell は NVIDIA Corporation の米国およびその他の国における商標または登録商標です。その他の製品名・会社名は各社の商標または登録商標です。

trending_flat