GPUクラスタ

よみ:じーぴーゆーくらすた

多数のGPUノードを高速ネットワークで接続した計算基盤。大規模AI学習やシミュレーションを短時間で処理するためのインフラ。

GPUクラスタの構成要素

GPUクラスタは、複数のGPUノードと高速ネットワーク、 ストレージ、スケジューラ(ジョブ管理システム)などから構成されます。
特にAI学習や大規模シミュレーションでは、数百GPU規模にスケールすることもあり、 電源・冷却・配線・ラックレイアウトを含めたインフラ設計そのものが性能と可用性を左右します。

電源BCPの観点から見たGPUクラスタ

GPUクラスタは「一部のノードが落ちてもジョブが継続できる」設計が理想ですが、 現実には電源系のトラブルがファブリック全体に波及し、ジョブが全滅するケースもあります。 そのため、以下のような対策が重要になります。

関連する考え方・用語

この用語が出てくる記事