InfiniBand

よみ:いんふぃにばんど

低遅延・広帯域を特徴とするサーバ/GPU間接続用インターコネクト。HPC・AIクラスタにおける分散学習や大規模ジョブで広く利用される。

InfiniBandとGPUクラスタ

InfiniBandは、GPUノード間でモデルパラメータや勾配をやり取りするための 超低レイテンシ・高帯域ネットワークとして使われます。 学習スループットを上げるには、GPUの性能だけでなく InfiniBandファブリックの設計が重要になります。

一方で、InfiniBandスイッチやHCAカードは電源トラブルに弱く、 瞬停電源ノイズによる 一時的なリンクダウンが大規模ジョブの失敗原因になることもあります。 DC-UPS と組み合わせた冗長設計により、 ネットワークも含めた「止まらない学習基盤」を実現します。

関連する考え方・用語

この用語が出てくる記事