InfiniBandファブリック
よみ:いんふぃにばんどふぁぶりっく
InfiniBand スイッチとGPU/CPUノードで構成される高性能ネットワーク。レイテンシとスループットがAI学習性能に直結するため、電源安定化と冗長構成が重視される。
InfiniBandファブリックの設計視点
InfiniBandファブリックは、複数のIBスイッチを組み合わせ、 GPUノード間での通信を最適化したネットワーク構造です。 トポロジとしてはFat-TreeやDragonflyなどが使われ、 キャンセルや再送の少ない低レイテンシ通信を実現します。
一方で、ファブリックの一部スイッチやリンクが停電・故障すると、 性能劣化〜ジョブ失敗まで一気に波及することがあります。 そのため、電源・冷却・ケーブリングを含めた「ファブリック全体のBCP設計」が重要になります。