Mune's Weblog

鹿児島在住のstray radiologistです
仕事も趣味も画像関係…

2019.04.18 TensorFlow-gpuマシンの停止再起動問題。やはりPSU?

2019年04月18日 | 仕事関係
またお仕事関係のログ。
ごく一部の方には役に立つこともあるかもしれないし、ないかもしれない。



ちょっと前の出張の写真。

では本記事。

少し前からちょっと重い(といいつつImageNet学習済みVGG19ファインチューニング)計算をしようとすると回した瞬間に停止→再起動するという症状が起こり始め、とうとう全くエポックが進まなくなりました。
メモリ?グラボ?
と思ったものの、きちんとしたエラーログすら残っておらずわけワカメ。
いろいろ検索したところ、Qiita記事「TensorFlowでGPUを使用した学習中にシステムが勝手に再起動する問題」https://qiita.com/musaprg/items/cbe5a2490f6507fb4e0d が見つかり、
1.NVIDIAドライバの問題
2.電源ユニットの問題
とありました。
1の場合→CUDAやcuDNNとtensorflowのバージョンにシビアな依存関係があるので、苦労して構築した環境を壊すのがコワイ
2の場合→お金と時間コストかかる上に、無駄になる可能性も…
LinuxならGPUのlimitをかけるコマンドがあるようだけど、Windowsにはないみたい…
と思っていたら
MSI社から、afterburnerというツールが出ている!
のでインストールしてみたものの、80%くらいにしてもダメ。
で、疲れてきたのでうっかり
NVIDIAドライバ更新してしまいました。
すると…
tensorflow-gpuのテストコードで、GPUを認識しない!!!
シんだ…
と思って再起動すると…
テストコードできた!!!
が、やはり問題のコードだと停止→再起動と…
う~ん、StackOverflowとかで書いてあるとおり、やはりPSUか…850Wのなんだけど…

またわかり次第アップします。

最新の画像もっと見る

1 コメント

コメント日が  古い順  |   新しい順
munegooblog (mune)
2019-05-18 17:33:11
アップしてませんでしたが、afterburnerで60%くらいに制限したら症状が改善しました。今のところ、それほど重たい計算ではないので、当面の間はこれで様子を見てみます!
返信する

コメントを投稿