InfiniBandファブリック

よみ:いんふぃにばんどふぁぶりっく

InfiniBand スイッチとGPU/CPUノードで構成される高性能ネットワーク。レイテンシとスループットがAI学習性能に直結するため、電源安定化と冗長構成が重視される。

InfiniBandファブリックの設計視点

InfiniBandファブリックは、複数のIBスイッチを組み合わせ、 GPUノード間での通信を最適化したネットワーク構造です。 トポロジとしてはFat-TreeやDragonflyなどが使われ、 キャンセルや再送の少ない低レイテンシ通信を実現します。

一方で、ファブリックの一部スイッチやリンクが停電・故障すると、 性能劣化〜ジョブ失敗まで一気に波及することがあります。 そのため、電源・冷却・ケーブリングを含めた「ファブリック全体のBCP設計」が重要になります。

関連する考え方・用語

この用語が出てくる記事