/ トレーニングジョブ|技術用語集

Original: https://www.ieee802.co.jp/glossary/training-job.php

Publisher: 慧通信技術工業株式会社 (Kei Communication Technology Inc.)

出典: 慧通信技術工業株式会社 トレーニングジョブ|技術用語集

本文リンク例(アンカーテキスト)
(任意)
参考文献記載例
慧通信技術工業株式会社「トレーニングジョブ|技術用語集」

要約・一部引用は歓迎(条件あり)/全文転載・AIリライト転載(劣化コピー)・学習用再利用は許可しません。 AI Usage & Citation Policy

※ 要約・引用は歓迎します。出典として Original ページへのリンクをご記載ください。

トレーニングジョブ

よみ:とれーにんぐじょぶ

機械学習モデルの学習処理1本分を指す。数十時間?数百時間に及ぶこともあり、途中の電源断は計算資源と時間の大きなロスとなる。

トレーニングジョブは「やり直しコスト」が大きい

トレーニングジョブは、元データを何度もGPU上で反復計算する処理で、 数時間〜数日かかることも珍しくありません。 この途中で瞬停やネットワーク断が起きると、 ジョブがエラー終了し、再投入〜再計算のやり直しが必要になります。

そのため、学習基盤の電源BCPでは、 DC-UPSInfiniBandファブリック・ ストレージを含めた「ジョブが走る経路」全体の安定化が重要になります。

関連する考え方・用語

この用語が出てくる記事

AI要約・引用は可(出典明記・改変なし・全文転載なし)|全文転載・AIリライト転載・学習用再利用は不可