分散型リソース管理システム Altair® Grid Engine®

Altair® Grid Engine®
Altair® Grid Engine® は先進的な分散型リソース管理システムであり、ジョブのスケジューリング、リソース管理などの機能により、コンピューティングリソースを最大限に活用するためのソフトウェアソリューションです。
数多くのデータセンターに採用され、ジョブの負荷と計算資源の最適化を通してパフォーマンスの改善と生産性の向上及び効率化を加速しています。「Altair® Grid Engine®」によりスループットが最適化され、アプリケーション、コンテナ、サービスの実行効率が上がり、オンプレミス、ハイブリッド、クラウドを跨いで提供される計算資源を最大限効率的に運用することが可能となります。
 

The last Job scheduler

Grid Engine のルーツは 1993 年にさかのぼります。ドイツ、レーゲンスブルクで生まれ、GRD/CODINEから始まりました。2000年になると、Grid Engine の名が与えられ、Sun-microsystems, Oracle, Univa を経て、Altair Grid Engine へと昇華しています。Resource Manager とは、有限な計算資源を有効に活用するため、要求するメモリ、CPU、そして計算時間をジョブの要求事項として定義し、計算資源を最大限に有効活用するミドルウェアです。これまでに、数千のデータセンター、主要な企業に採用され、絶え間なくジョブを流し続けることで、コンピュータによる計算科学を通じて人類の発展に貢献してきました。 Grid Engine の大きな特徴は、ジョブごとに優先順位を与え、計算資源を細かく定義することで、最大の計算効率を得られるように設計されている点にあります。Sun Grid Engine から Univa Grid Engine に進化する過程で、いち早く、CPU socket から Core への拡張を図り、Unifiled Memoryへさらに進化してゆく CPU に追従し、GPU への対応、また、Docker Container 内でのジョブの実行に対して最も早く対応した、ジョブスケジューラーです。NVIDIA DGX-1 の登場は衝撃的で、ジョブをコンテナ内でしか動作ささせないサービスの管理をどのようにジョブスケジューラに取り込むかは、非常に大きな課題でした。日本における実質的Nvidia DGXのローンチカスターマーである、理化学研究所革新知能統合研究センターへの採用、また、東京工業大学 TSUBAME3.0 への採用は、Grid Engine の持つ、細かなジョブ制御を特徴として、Nvidia GPU の完全な制御により、現在もその運営に貢献をし続けています。また、AGE のもう一つの特徴である、大規模なジョブを取り扱えるという特徴は、バイオインフォマティクスで先進的な研究を行う、東京大学医科学研究所、国立遺伝学研究所、また膨大なジョブを取り扱う、EDA業界での採用からわかるように、1M core を計算背景とした、数千万ジョブの取り扱いであっても、問題なく耐え抜く安定性を示しています。2020年には、Altair の一員となり、ますます発展し続けています。
 

特徴

優先度設計と利用ポリシー

Altair Grid Engine はフェアシェアなどの複数のスケジューリングポリシーを提供します。これにより、クラスタ内の負荷をビジネス目標を意識したプロジェクト管理を実現します。
 

計算資源(CPU, memory, GPU)の稼働率を最大化

クラスタ内のジョブのターンアラウンド時間を最適なジョブ割り当てにより短縮化することで、プロジェクトに応じた優先度調整により全体の稼働率を最大化できます。
 

スケーラビリティ

Altair Grid Engine は、単一の管理機構で、百万コアのクラスタ(vCPU)へ計算資源を管理することができます。ひとつの Grid Engine クラスタで、10,000 以上のノード、月に100万ジョブを実行することが可能です。
 

計算資源管理

Altair Grid Engine は、すべてのクラスタノードからの稼働情報を継続的に収集し、管理者が設計したスケジューリング戦略のもと待機中のすべてのジョブ要求を評価し、利用可能なリソースに全てのジョブを割り当てて調整を行います。
 

Altair Grid Engine クラスタ内での Docker コンテナ実行

ビジネスクリティカルなDocker コンテナでのジョブ実行を、これまでの通常のジョブからオプション行を数行変更することで実行することが可能です。
 

Docker コンテナのジョブリミット制御

これまでのジョブと同様、メモリ制限、CPU制限、実行時間の制限、またさらにGPUの使用枚数の制限を Docker コンテナジョブにおいても実施することが可能です。
 

Docker コンテナの課金集計

コンテナジョブにおいてもCPU、メモリ、利用時間の課金集計を取ることができ、計算資源のフェアシェアを保証、リソースを共有し使用するユーザーやグループに対する負荷の追跡が可能となります。
  

データ管理とセキュリティ

ユーザーは特別に意識することなく「$HOME」 がコンテナ内で共有されるため、ユーザーディレクトリにあるアウトプットファイルやエラーファイルへの入出力が可能です。
また、ユーザーは Docker group に所属する必要はなくセキュリティーも担保されています。
 

インタラクティブ Docker コンテナ

コンテナに対する対話型コマンドを安全に実行する事が可能です。
 

ご購入前のお問い合わせ

trending_flat