GPUノード

よみ:じーぴーゆーのーど

GPUを複数搭載したサーバ筐体1台分を指す単位。多数のGPUノードを束ねてクラスタを構成し、AI学習やHPCジョブを分散実行する。

GPUノードが抱える電源課題

1ノードあたり数kWの電力を消費するGPUノードは、 電源瞬断・瞬低に対する耐性が低く、停止=ジョブ中断に直結します。 また、電源品質が悪いと電源ノイズから PCIeエラー・ストレージI/Oエラーが発生しやすくなります。

ラック単位でのDC-UPS、 ノード単位の冗長電源、SNMPによる電源・温度監視を組み合わせることで、 GPUノードを電源トラブルから切り離したクリーンな運転環境を確保します。

関連する考え方・用語

この用語が出てくる記事