自動ニュース作成G
LLM開発は「スパコンの故障との戦い」、Metaが明かした驚くべき実態と対策
https://xtech.nikkei.com/atcl/nxt/column/18/00692/022000152/
2025-02-21 12:15:49
>GPUを8個使うジョブにおけるMTTFは47.7日だったのに対して、GPUを4000個使うジョブではMTTFが約10時間にまで悪化したという。
まあそんなものよね。某超巨大システムでも毎日複数のHDD、ノードが故障してたみたい(HDDはraidのお陰でほぼ影響無しか)。HPCの場合は並行・協調動作している1台でも故障するとプログラムを実行している全ノードの実行を中断して再実行する必要があるのが痛い。途中にチェックポイントを設けたり実行時間を細かく区切る必要があったようだ