理乃美

ソフトとハードと論理の覚え書き

Tesla K80 の発熱に勝った..のか?

2022-05-05 21:52:00 | 自作パソコン

ファンレスグラボ用の外付け3連ファンで長いあいだお茶を濁していたK80だが、連休で時間がとれたのでファンを付け直すことにした。

今度使うのは、中華通販で入手した2連の4cm角タンデムファンのGFB0412EHS。DELLのラックマウントサーバー用のユニットのようだ。

ファンを取り付けるスロートは、3Dプリンタで作るのが今どきの流儀だろうが、そうもいかないのでアルミ板と木切れででっちあげた。GPGPUボードの延長線上にファンがくる配置なので、ケース内の3.5inchベイを1ユニット外して場所を開けた。

で、その効果だが nbody.exe を K80の両方のGPUを同時に使い倍精度で計算する設定でぶんまわして、GPU-ZでGPU温度を観察した。今回は、片方は58℃、もう片方は48℃で安定。(外気温は26℃)    ちなみに、ケース背面には、まるでヘアドライヤーのように熱風が噴出している。

と、いう事でTESLA K80の発熱に打ち勝った...のだろうか?確かに、GPU温度は抑え込めたが、ファンの爆音が残った。そう、あのサーバールームの轟音が自宅で手軽に味わえるようになってしまったのだ。うーむ、困ったものだ。

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

簡易水冷の逆襲...ならず

2021-07-03 13:46:16 | 自作パソコン

先日、簡易水冷で第11世代のCore i7 (11700K)を冷やしきれたと書いたが、実はそうでなかったことが判明。

Cinemabench R23で負荷をかけ、CPU Utilizationが100%,  Package TDPが180W くらいになっても Package Tempatureが 70℃強だったのは事実。

ところが、数値計算のベンチである Linpackを走られたところ、あっさりとサーマルスロットリングが発動。CPU Utilizationは50%だが、Package TDP が 225Wほどになり、Package Tempature は100℃にべったり。プログラムを止めるとスッと40℃程度に落ちる。

水冷なので、熱の流れはこうなる。

CPUチップ -- CPUチップとヒートスプレッダーの間のグリス -- CPUのヒートスプレッダー -- CPUグリス -- クーラーヘッド -- 冷却水

スッと40℃に落ちることから熱容量の大きい冷却水は40℃ぐらいと推定される。また、Package Tempatureとあるのは実際はCPUチップの温度と過程。アイドル時のTDPが20Wとして、Cinebenchで +160W の時の + 32℃、Linpack で +225W の時に + 60℃ 。つまり、CPUチップから冷却水までは、 0.27~0.2 ℃/Wの熱抵抗という事だろう。

CPUチップからヒートスプレッダーまでの熱抵抗は、いわゆる殻割りの記事から推定してみる。 (https://blog.tsukumo.co.jp/shimizu_oc/2016/09/cpu_2.html)

上記の記事では、CPUチップと蓋の間のグリスを金属グリスに換えたことで、およそ200W消費時に 90℃が64℃に下がったという。つまり、オリジナルの状態では 0.13℃/W 以上の熱抵抗があったことになる。世代の異なるチップの話だが、第11世代のCore i7でも傾向に大きな違いはないだろう。

ということでこの推測に基づくと、熱抵抗の半分弱は市販CPUをそのまま使う以上どうしようもない。

また、残りは、おおむねCPUグリスを経由してクーラーヘッドから冷却水への熱抵抗となる。

ストックの状態ですら、第11世代 Core i7 (11700K) の計算能力を出し切るのは大変だ。

 

 

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

Tesla K80の熱は手ごわい

2021-06-27 00:27:00 | 自作パソコン

Tesla K80の冷却に手を焼いているというお話。

自作の送風ユニットはK80に十分に風を通せなかったのは前述のとおり。

送風ユニットの作り直しには手間暇がかかるので、とりあえずは、K80のケースを外して放熱器に横から風を当てることで凌ぐことにしてみた。

という事で、amazonでポチったのがこちら。

Tesla K80のカバーだが、カバー表面にある4つのトルクスねじと、側面の4つずつ8つあるトルクスねじを外せば、

プラスチックカバーが外せて、このように冷却フィンむき出しとなる。

この状態でマザーボードに装着し、となりに先ほどのファンを装着した。

これで、GPU-Zでモニターしつつ nbodyを動かしてGPUに負荷をかけたところ、外気温25.5℃でアイドル時は36℃ほど。負荷をかけるとGPU温度はじりじりと上がり90℃オーバーになったのでテストを中止。ほんの2-3分程度のジョブならばなんとかなるが、本気の長時間ジョブは流せないなあ。

新しいケースの CM694 TGは、奥行きが昔のケースより短い。グラボフォルダを使うと全長27cmのK80が一杯という感じ。3.5 inchベイのケージを外せば送風ユニットの場所を作れるが、位置的に二つにケージの境目なのがつらい。三つあるケージの二つを外したらせっかくの3.5 inchベイが豊富というメリットが失われてしまう。

さてどうしたものか...ということで、タンデムのファンで冷却できたという後日談が、こちら。

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

第11世代 Core i7 の自作PCをベンチマークする

2021-06-22 23:54:18 | 自作パソコン

自作PCのベンチマークデータ

マシンの仕様は以下のとおり。

  • CPU:  11700K  第11世代 Corei 7
  • マザーボード: Z590 チップセット  ( ASUS TUF GAMING Z590 PLUS )
  • Memory:  DDR4-3200 (14-18-18-38) 32GB x2
  • グラフィクス:  CPU内蔵GPUを使用
  • GPGPU:  Tesla K80   ( CPU直結の PCIe4.0 x16 スロットに設置)
  • OS:  Windows 10 Pro.  (build 19043)

 

Cinebench R23

Multi Core  14791 pts

Single Core 1592 pts

MP Ratio     9.29 x

linpack  -  intel版

intel oneAPI に含まれる linpack_xeon64.exe を runme_xeon64.batで起動. 実行時間は約11分。出力(win_xeon64.txt のパフォーマンス測定結果部分)を以下に転記。

CPU frequency:    4.886 GHz
Number of CPUs: 1
Number of cores: 8
Number of threads: 8

... (中略) ...

Performance Summary (GFlops)

Size   LDA    Align.  Average  Maximal
1000   1000   4       244.8787 264.0864
2000   2000   4       192.6778 197.2063
5000   5008   4       297.0413 298.1333
10000  10000  4       345.4598 345.8902
15000  15000  4       366.3256 369.1550
18000  18008  4       384.3963 384.7625
20000  20016  4       386.3005 388.0600
22000  22008  4       386.3178 387.1281
25000  25000  4       392.2190 393.8578
26000  26000  4       391.3257 393.2621
27000  27000  4       390.7530 390.7530
30000  30000  1       397.3227 397.3227
35000  35000  1       401.5751 401.5751
40000  40000  1       407.3746 407.3746
45000  45000  1       411.4282 411.4282

姫野ベンチ

  https://i.riken.jp/supercom/documents/himenobmt/

       あらかじめコンパイルされたWin版の実行結果は、 L sizeでは 6145.943  MFLOPS、 M sizeでは 6234.035 MFLOPS、S size では実行時間が短すぎて MFLOPSを計算できず。2002年1月に作られたバイナリなので、シングルコアしか使ってないし最新のSIMD命令も使っていないはずなので遅いはずだが、それでも6GFLOPS.

I:\姫野ベンチ>.\himenoBMTxp_l.exe
  mimax=         513  mjmax=         257  mkmax=         257
  imax=         512  jmax=         256  kmax=         256
  Start rehearsal measurement process.
  Measure the performance in 3 times.
   MFLOPS:   5805.185       time(s):  0.5781250      8.3494873E-04
 Now, start the actual measurement process.
 The loop will be excuted in         311  times.
 This will take about one minute.
 Wait for a while.
  Loop executed for          311  times
  Gosa :  7.0602610E-04
  MFLOPS:   6145.943       time(s):   56.60938
  Score based on Pentium III 600MHz :   74.19053
Fortran Pause - Enter command or to continue.

nbody

TESLA K80をベンチマーク。CUDA sample をビルドして使用。

下記サイトの条件に合わせて numbodies=204800 (CPUの場合は20480)を利用. https://www.hpc-technologies.co.jp/gpu-nbody-benchmark

倍精度

2 device 1396.210 double-precision GFLOP/s ( 1台のK80全体を使用時 )

1 device 774.942 double-precision GFLOP/s  ( K80の半分を使用時 )

CPU   11.173 double-precision GFLOP/s

単精度

2 device 2895.046 single-precision GFLOP/s

1 device 1629.395 single-precision GFLOP/s

CPU  6.395 single-precision GFLOP/s

---------- 実行例 --------------------------------

C:\ProgramData\NVIDIA Corporation\CUDA Samples\v11.3\bin\win64\Release>nbody.exe -benchmark -numbodies=204800 -numdevices=2 -fp64
Run "nbody -benchmark [-numbodies=<numBodies>]" to measure performance.
        -fullscreen       (run n-body simulation in fullscreen mode)
        -fp64             (use double precision floating point values for simulation)
        -hostmem          (stores simulation data in host memory)
        -benchmark        (run benchmark to measure performance)
        -numbodies=<N>    (number of bodies (>= 1) to run in simulation)
        -device=<d>       (where d=0,1,2.... for the CUDA device to use)
        -numdevices=<i>   (where i=(number of CUDA devices > 0) to use for simulation)
        -compare          (compares simulation results running once on the default GPU and once on the CPU)
        -cpu              (run n-body simulation on the CPU)
        -tipsy=<file.bin> (load a tipsy model file for simulation)

NOTE: The CUDA Samples are not meant for performance measurements. Results may vary when GPU Boost is enabled.

number of CUDA devices  = 2
> Windowed mode
> Simulation data stored in video memory
> Double precision floating point simulation
> 2 Devices used for simulation
GPU Device 0: "Kepler" with compute capability 3.7

> Compute 3.7 CUDA device: [Tesla K80]
> Compute 3.7 CUDA device: [Tesla K80]
number of bodies = 204800
204800 bodies, total time for 10 iterations: 9012.189 ms
= 46.540 billion interactions per second
= 1396.210 double-precision GFLOP/s at 30 flops per interaction

----------------------------------------------------------------------------

 

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

簡易水冷の逆襲

2021-06-22 23:24:42 | 自作パソコン

突然のPC故障で、第11世代 Core i 7 (11700K) の CPU & マザボに換装したものの、PCケースの都合で選んだ低背クーラーでは冷却が間に合わなかった。

ということで、360mmサイズの簡易水冷(CORSAIR iCUE H150i RGB PRO XT)とそれを収めるPCケース(COOLERMASTER CM694 TG)を購入。簡易水冷の組み込みにちょいと手間取ったのは前に書いたとおり。

簡易水冷の効果やいかに、ということで Intel Extream Tuning Utilityでパッケージ温度などを観察しつつ、Cinebench R23 でCPU負荷をかけてみた。

テスト時の外気温は25℃で、アイドリング時のパッケージ温度は35℃程度。CPU負荷をかけると、64℃あたりまでぐっと温度上昇したあとは上昇度合いが低下し、72℃あたりでストップ。多少の温度変動はあるが、そのまま Cinebenchを走り切った。

2分くらいでパッケージ温度が100℃に達し、サーマルスロットリングが発動した低背空冷クーラーとは段違い。

これで、安心して思いジョブを流すことができる。 (... と思ったが違った、という後日談は「簡易水冷の逆襲...ならず」に記載した。)

# 前のPCケースはどうしよう。

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする