またお仕事関係のログ。
ごく一部の方には役に立つこともあるかもしれないし、ないかもしれない。
ちょっと前の出張の写真。
では本記事。
少し前からちょっと重い(といいつつImageNet学習済みVGG19ファインチューニング)計算をしようとすると回した瞬間に停止→再起動するという症状が起こり始め、とうとう全くエポックが進まなくなりました。
メモリ?グラボ?
と思ったものの、きちんとしたエラーログすら残っておらずわけワカメ。
いろいろ検索したところ、Qiita記事「TensorFlowでGPUを使用した学習中にシステムが勝手に再起動する問題」https://qiita.com/musaprg/items/cbe5a2490f6507fb4e0d が見つかり、
1.NVIDIAドライバの問題
2.電源ユニットの問題
とありました。
1の場合→CUDAやcuDNNとtensorflowのバージョンにシビアな依存関係があるので、苦労して構築した環境を壊すのがコワイ
2の場合→お金と時間コストかかる上に、無駄になる可能性も…
LinuxならGPUのlimitをかけるコマンドがあるようだけど、Windowsにはないみたい…
と思っていたら
MSI社から、afterburnerというツールが出ている!
のでインストールしてみたものの、80%くらいにしてもダメ。
で、疲れてきたのでうっかり
NVIDIAドライバ更新してしまいました。
すると…
tensorflow-gpuのテストコードで、GPUを認識しない!!!
シんだ…
と思って再起動すると…
テストコードできた!!!
が、やはり問題のコードだと停止→再起動と…
う~ん、StackOverflowとかで書いてあるとおり、やはりPSUか…850Wのなんだけど…
またわかり次第アップします。
ごく一部の方には役に立つこともあるかもしれないし、ないかもしれない。
ちょっと前の出張の写真。
では本記事。
少し前からちょっと重い(といいつつImageNet学習済みVGG19ファインチューニング)計算をしようとすると回した瞬間に停止→再起動するという症状が起こり始め、とうとう全くエポックが進まなくなりました。
メモリ?グラボ?
と思ったものの、きちんとしたエラーログすら残っておらずわけワカメ。
いろいろ検索したところ、Qiita記事「TensorFlowでGPUを使用した学習中にシステムが勝手に再起動する問題」https://qiita.com/musaprg/items/cbe5a2490f6507fb4e0d が見つかり、
1.NVIDIAドライバの問題
2.電源ユニットの問題
とありました。
1の場合→CUDAやcuDNNとtensorflowのバージョンにシビアな依存関係があるので、苦労して構築した環境を壊すのがコワイ
2の場合→お金と時間コストかかる上に、無駄になる可能性も…
LinuxならGPUのlimitをかけるコマンドがあるようだけど、Windowsにはないみたい…
と思っていたら
MSI社から、afterburnerというツールが出ている!
のでインストールしてみたものの、80%くらいにしてもダメ。
で、疲れてきたのでうっかり
NVIDIAドライバ更新してしまいました。
すると…
tensorflow-gpuのテストコードで、GPUを認識しない!!!
シんだ…
と思って再起動すると…
テストコードできた!!!
が、やはり問題のコードだと停止→再起動と…
う~ん、StackOverflowとかで書いてあるとおり、やはりPSUか…850Wのなんだけど…
またわかり次第アップします。