いったん稼動した「とねスパコン」だが先日の記事でOmni OpenMP/SCASH環境で計算ホストを4台に増やした段階でコアダンプの問題にぶつかってしまった。
その後、消去法で原因調査を少しずつ続けたのだがまだ解決していない。以下が試行錯誤した内容だ。
1)4台目の計算ホストと3台目の計算ホストの2台だけでプログラムを実行した結果、やはり同じエラーで停止した。ということは4台目の計算ホストに固有のエラーであることが判明。
2)4台目の計算ホストをOSからすべてを再インストール。これで直るかと思ったら甘かった。エラーは依然として発生してしまった。これで4台目の計算ホストのハードウェアもしくは、ハードウェア設定の問題であることがほぼ確定的となった。しかし、このパソコンは以前Windowsマシンとして正常稼動していたのがどうも腑に落ちない。
3)4台目の計算ホストのメモリーを交換してみた。しかしエラーが再現することに変わりはない。BIOSやハードウェアの状態も他の計算ホストと比較して違いがないことを確認した。この時点でとりあえず確認できることはすべて行ったことになる。
残る手段としては、現在CentOS 4.4+SCore6環境で動いているソフトウェアがバージョンアップしてCentOS 5.2+SCore7環境がリリースされるのを待つか、あるいはもう一台中古PCを買って試すしかない。後者はなかなか格安のPCが入荷しないので気長に待っているところだ。(ソフトウェアがバージョンアップして問題解決される保証はないが楽観的に待つことにしたわけだ。)
スパコン環境はMebius MURAMASAのノートPCから遠隔操作で使えるように環境設定した。これで外出先から電源起動から停止まですべての操作を行えるのでだいぶ作業が楽になった。
Omni OpenMP/SCASH環境では問題が残っているもののMPI環境ではフルスペックで動くので、とりあえず後者でプログラミングの勉強でもしていようと思う。
ブログ執筆のはげみになりますので、1つずつ応援クリックをお願いします。
関連リンク:
PCクラスタコンソーシアム
http://www.pccluster.org/ja/
スーパーコンピュータを作っちゃおう!!
http://blog.goo.ne.jp/ktonegaw/e/a459cbb7134ac8e60712c34cd4aa6ec1
「とねスパコン計画」始動!
http://blog.goo.ne.jp/ktonegaw/e/6c3ba74a3e5857a2b3175ada040c1fc3
とねスパコン: CentOS 4.4のインストール
http://blog.goo.ne.jp/ktonegaw/e/7deee95a5d0091e0498b5799253754a9
とねスパコン: 動作確認
http://blog.goo.ne.jp/ktonegaw/e/30cce68087191b8064af21b8cbf80645
とねスパコン:動いたのだが。。。
http://blog.goo.ne.jp/ktonegaw/e/99cb2bb87a6cc06d63628a29cc18811a
とねスパコン:計算ホストを3台に増やしてみた
http://blog.goo.ne.jp/ktonegaw/e/e57737c0953770b8ef449d009c83a2fa
計算物理学のリンク集
http://blog.goo.ne.jp/ktonegaw/e/1ccf9ab03075931b1a923e4a01271df4
究極の物理シミュレーション
http://blog.goo.ne.jp/ktonegaw/e/12cede0cb34c3b0cff05a6df66d61227
その後、消去法で原因調査を少しずつ続けたのだがまだ解決していない。以下が試行錯誤した内容だ。
1)4台目の計算ホストと3台目の計算ホストの2台だけでプログラムを実行した結果、やはり同じエラーで停止した。ということは4台目の計算ホストに固有のエラーであることが判明。
2)4台目の計算ホストをOSからすべてを再インストール。これで直るかと思ったら甘かった。エラーは依然として発生してしまった。これで4台目の計算ホストのハードウェアもしくは、ハードウェア設定の問題であることがほぼ確定的となった。しかし、このパソコンは以前Windowsマシンとして正常稼動していたのがどうも腑に落ちない。
3)4台目の計算ホストのメモリーを交換してみた。しかしエラーが再現することに変わりはない。BIOSやハードウェアの状態も他の計算ホストと比較して違いがないことを確認した。この時点でとりあえず確認できることはすべて行ったことになる。
残る手段としては、現在CentOS 4.4+SCore6環境で動いているソフトウェアがバージョンアップしてCentOS 5.2+SCore7環境がリリースされるのを待つか、あるいはもう一台中古PCを買って試すしかない。後者はなかなか格安のPCが入荷しないので気長に待っているところだ。(ソフトウェアがバージョンアップして問題解決される保証はないが楽観的に待つことにしたわけだ。)
スパコン環境はMebius MURAMASAのノートPCから遠隔操作で使えるように環境設定した。これで外出先から電源起動から停止まですべての操作を行えるのでだいぶ作業が楽になった。
Omni OpenMP/SCASH環境では問題が残っているもののMPI環境ではフルスペックで動くので、とりあえず後者でプログラミングの勉強でもしていようと思う。
ブログ執筆のはげみになりますので、1つずつ応援クリックをお願いします。
関連リンク:
PCクラスタコンソーシアム
http://www.pccluster.org/ja/
スーパーコンピュータを作っちゃおう!!
http://blog.goo.ne.jp/ktonegaw/e/a459cbb7134ac8e60712c34cd4aa6ec1
「とねスパコン計画」始動!
http://blog.goo.ne.jp/ktonegaw/e/6c3ba74a3e5857a2b3175ada040c1fc3
とねスパコン: CentOS 4.4のインストール
http://blog.goo.ne.jp/ktonegaw/e/7deee95a5d0091e0498b5799253754a9
とねスパコン: 動作確認
http://blog.goo.ne.jp/ktonegaw/e/30cce68087191b8064af21b8cbf80645
とねスパコン:動いたのだが。。。
http://blog.goo.ne.jp/ktonegaw/e/99cb2bb87a6cc06d63628a29cc18811a
とねスパコン:計算ホストを3台に増やしてみた
http://blog.goo.ne.jp/ktonegaw/e/e57737c0953770b8ef449d009c83a2fa
計算物理学のリンク集
http://blog.goo.ne.jp/ktonegaw/e/1ccf9ab03075931b1a923e4a01271df4
究極の物理シミュレーション
http://blog.goo.ne.jp/ktonegaw/e/12cede0cb34c3b0cff05a6df66d61227