速報!DGX H100イントロダクションガイド

2023.05.24 レポート

2023年5月、いよいよNVIDIA H100の国内出荷が始まりました。これに伴い株式会社ジーデップ・アドバンスでは、NVIDIA DGX H100 の導入を検討されるお客様向けに、ご注意点や検討すべき点をまとめました。十分にご理解頂いたうえで、システムを最大限に生かすためにご活用ください。
導入のご検討は、国内トップクラスの導入実績を誇る株式会社ジーデップ・アドバンスまでお気軽にご相談ください。
参考リンク:NVIDIA DGX H100 製品情報

 

電源供給・空調

基本的にデータセンターでの使用のみを想定された電源と排熱設計です。自社サーバールームでの運用をご検討の際には電源供給能力や冷房能力についてご確認ください。

 

 

 

 

 

 

 

項目 仕様 説明
消費電力 10200W

3200W PSU 4+2 リダンダント設計

PSU が 2 個まで壊れても通常運転が可能です。3 個壊れた場合には動作しません。

1PSU あたり単独での最大電流消費量は 16A とされています。

電源供給 1 系統の場合 200V 60A

出力が 1 系統になるため、トータルで 60A あれば動作できます。

電源供給 2 系統の場合 200V 30A x2

1 系統落ちてしまうとPSU4 台分の電源を供給できなくなり、運転が継続できません。したがって落ちないことを前提にすると 1 系統 30A で上記と同じになります。

電源供給 3 系統の場合 200V 30A x3

1 系統落ちてしまった場合にも通常運転が可能です。2 系統落ちると稼働が不可能になります。

PDU C19 x6

付属するロック付きC19-C20 ケーブル 6 本の接続が必要です。供給する電源の系統数と最低同じ数の PDU が必要になります。サーバ背面からユニットを引き出してメンテナンスを行うため、0U タイプの場合、飛び出したケーブルがサーバの後ろと干渉しないことが絶対条件になります。

冷房能力 10200W

消費される電力はそのまま発熱になります。消費電力を賄える冷房能力が必要です。

風量 1105CFM

10U 全面で計算すると平均 3m/s の風がフロントからリア方向に吹きます。開口部の占める面積を 50%と仮定するとリアカバーの近傍ではその倍の速度の風が吹きます。リアカバーの後方には障害物がないことが必須です。

 

騒音対策

騒音レベルは室温 25 度 C で 97dB、30 度C では 98.7dB に達し、飛行機の離陸音と遜色ない爆音とお考え下さい。居室での使用は想定されていません。独立した部屋では、その建物内の配置によってドアの防音対策や、部屋そのものの防音対策が必要になる場合があります。

 

ラック・重量に関する注意

重量物への十分な配慮が必要です。

 

 

 

 

 

項目 仕様 説明
サーバサイズ

8U

356 x 482.3 x

897.1 mm

DGX A100 より2U 大きくなりました。

電源その他ケーブルのクリアランスが必要なため、ラックは最低 1000mm の長さが必要ですが、ポストの位置によっては 1000mm では後ろのドアが閉まらないことがあります。1200mm タイプをお勧めします。

重量 130.45 kg

DGX A100 より+7kg 重量が増えました。

サーバリフトを使用しないと設置が不可能な重量です。このことから概ね 25U より高さが上の位置への設置は不可能です。また、最低位置へもリフトのプラットフォームの厚みにより設置できない場合があります。

持ち上げ式フリーアクセス床の場合、耐荷重の制限に関して十分な考慮が必要です。特に UPS を利用する場合にはラックを含めた総重量は300 ㎏程度になることもあります。架台の設置や鉄板での補強が必要になることも

あります。
パッケージサイズ

970 x 711 x 1178

mm

DGX A100 に比べてさらに一回り大きくなっています。

木枠のパレットに載った段ボール製のパッケージをハ ンドリフトで運びます。搬入経路に極端な段差があったり、これを通すことができない障害物があったりする場合には導入不可能な場合があります。階段持ち上げは不可能です。

箱自身に固定のメカニズムはありませんので、再梱包には梱包用結束バンドが必要です。

 

ネットワーク(暫定)

ネットワーク用に多くのポートを備えていますので、予めよく検討して最大限有効にお使いください。ジーデップ・アドバンスでネットワーク接続の設計や構築も承ることも可能ですのでご相談ください。

 

 

項目 仕様 説明
BMC      ポート 1GbE RJ45

電源の ON/OFF やリセット並びにリモートコンソール機能などのための専用ポートです。OS とは通信できません。

OS 用ポート 10GbE

OS へのログインやメンテナンスを想定したポートで

す。PXE ブートも基本的にここから行います。
OS 用ポート 2 2x 100GbE QSFP

Intel 製高速イーサネットアダプタが搭載されています。

ストレージ用ポート

2x (400Gb IB +

400GbE) QSFP112

400Gb IB+ 400Gb E 各 1 ポートのボードが 2 枚、合計 4ポート搭載されています。主にストレージシステムとの接続を想定して装備されています。他のスピードへの変換にはアダプタが必要となりますが、まだ正確な情報がありません。P2P 接続はサポートされないという情報があります(確認中)。コマンドを用いて動作モードをインフィニバンドに変更することも可能です。

クラスタ用ポート

4x OSFP =

8x 400Gb IB

400Gb インフィニバンドのポートです。OSFP は 1 ポートで 2 ポート分のQSFP に分岐されて接続されるようです。ノード間通信などを想定しています。他のスピードへの変換にはアダプタが必要となりますが、まだ正確な情報がありません。P2P 接続はサポートされないという情報があります(確認中)。コマンドを用いて動作モードをイーサネットに変更することも可能です。

 

フロントストレージ

 

DGX サーバの基本コンセプトでは、メインのストレージ領域は外部に置いたファイルサーバに持たせることなっています。そのため、OS 領域は RAID1 で保護し、/raid にマウントされるデータ領域は cachefilesd が用いるNFS のキャッシュとして構成するのが標準です。但し、/raid 領域の構成を組みなおして、信頼性も兼ね備えた RAID5 とすることも可能です。

項目 仕様 説明
OS 領域 2x 1.92TB M.2 NVMe RAID1

/以下OS 領域です。DGX OS をそのままインストールする場合、パーティション等構成を変更することは困難

です。

Data Cache 領域

8x 3.84TB U.2 NVMe RAID0

/raid 以下NFS data cache 領域です。デフォルトでは

RAID0 総容量30TB で高速性のみを重視していますが、RAID5 などに組みかえて使うことも可能です。

 

OS・アプリケーション動作環境

標準ではNVIDIA GPU と Docker 環境をサポートする DGX OS が搭載されます。開発環境その他は OS 上にネイティブではインストールされておらず、全て NVIDIA GPU CLOUD (NGC)から利用者が個別にダウンロードして使用いただきます。NGC へのユーザ登録を強くお勧めします。

項目 仕様 説明
DGX OS 6.x

Ubuntu 22.04 ベー

DGX-H100 の場合、標準ではこの OS を使用することになります。カーネルは nvidia 版が用意されています。

RHEL

RHEL8 + Rocky8 サポート

利用者が RHEL8 に変更して使用する場合のサポートパッケージがオンラインで提供されます。Rocky も正式にサポートされます。ユーザーガイドに詳しく解説されています。

クラスタ管理ソフトウエア

Bright Cluster Manager

Bright Computing 社を買収し、以前からあったBright Cluster Manager の DGX システムサポートが拡充されました。DGX OS/Ubuntu, RHEL, Rocky の混在などが正式にサポートされます。DGX OS イメージとは別に配布されます。

その他  

上記以外のOS ではNVIDIA のサポートが受けられませ

んが、おそらく動作は可能です。

 

※本情報は2023年5月現在の内容となります。今後製品の改良などを重ね情報が随時更新されていく可能性がございますので、最新の情報は当社営業担当までお問い合わせください。

trending_flat