「AI」のブログ記事一覧(2ページ目)-理乃美

WGAN-GPは安定していたが...

2024-02-25 23:31:50 | AI

引き続いて、Generative Deep Learning [1] の 4章 Wasserstein GAN with Gradient Penalty (WGAN-GP)のサンプル (wgan_gp.ipynb)[2]を試し、学習の安定性が向上していることは見て取れた。一方で、Gradient Penalty のためにInterpolated imageを使うことによってアーティファクトが発生していた。実用的には単純なinterpolationではなくもっと工夫が必要なことが見て取れた。

このサンプルは、VRAM 6GBのRTX A2000ではメモリ不足で実行できなかったが、GPU無し用のdocker imageを使いCPUのみを使って実行した。

このサンプルでは、下記のような64x64のカラー画像の画像セットで学習する。

学習は、１epochあたり判別機の学習をCRITIC_STEPS 回行って 200 epoch 行う。
まずは、サンプルそのままに CRITIC_STEPS = 3 で実行。
その学習の進捗を50 epochごとに示すと、
1/200
.

50/200

100/200

150/200

199/200

となる。
最終的に生成される画像の例がこちら。

教科書figure 4-14の生成例と比べるといまいち。WGAN-GPの学習の安定性を見るために学習と生成を3回行い、その結果を並べてみるとこの通りで、DCGANを試した時と比べるとずっと学習が安定している。しかし、教科書にあるほど良い結果にはなってない。あれは良い画像だけを選んだものかな？

ちなみに、学習にかかった時間は約120分。マシンは、メモリが16GBでCPUが Core i5 10600 (3.3GHz) 6 コア 12 Thread.
結果がいまいちに思えたので、CRITIC_STEPSを変えて試してみた。CRITIC_STEPSが 2, 3, 5, 7 で最終的な生成画像を並べてみるとこうなる。この結果で言うとサンプルのCRITIC_STEPSはちょっと少なかったかな。ただ回数を増やせば学習の所要時間も増して、それに見合うほどの画質向上が得られるかというところがある。
CRITIC_STEPS=2 使用時間 85分

CRITIC_STEPS=3 所要時間 118分

CRITIIC_STEPS=5 所要時間 186分

CRITIC_STEPS=7 所要時間 253分

下記は生成された画像の一つだが、二重写しのように見える。思うに、Gradient Penalty のためにオリジナルと生成物の二つをミックスしてほどほどの評価点の物として学習させているため、二重写しもそれなりに受け入れられる画像として学習してしまっているのかと推測した。

[1] Generative Deep Learning, 2nd Edition by David Foster, Released May 2023, Publisher: O'Reilly Media, Inc. ISBN: 9781098134181
[2] https://github.com/davidADSP/Generative_Deep_Learning_2nd_Edition

DCGANはなかなか難しい

2024-02-10 22:35:58 | AI

Generative Deep Learning [1] の 4章 deep convolutional GANのサンプル (dcgan.ipynb)[2]を試してみたところ、DCGANで思うような結果を出すのが難しいと実感できた。
このサンプルでは、下記のようなレゴブロックのモノクロ画像(64x64 dot)を教師データとしてレゴブロックの画像生成を行う。

生成器と識別器がだまし/だまされないように互いに切磋琢磨(?)するのが、敵対的生成ネットワーク (Generative adversarial networks: GAN) で、生成器と識別器が畳み込みニューラルネットワークでできたGANが deep convolutional GAN: DCGAN.

で、上手く訓練ができれば、このように画像が生成できる。出来がいまいちだって？ DCGANの規模が小さいからかな。でも、これは4回目にやっとできた上出来の結果なんだ。

一回目だと、最初は良い感じに訓練できていたものの途中でこんな風に偏ってしまい、

結果としてこういう画像を生成するようになってしまった。

二回目もやっぱり、途中までは良いものの突然このように道を踏み外して、

結果はこれ。

三回目もやっぱり、途中で偏ってしまってこの結果。

識別器が、画像の特定の特徴のみを見て真偽判定するように訓練され、生成器もそれに合わせてその特徴のみを模倣するように訓練されてしまったという事なのだろう。

教科書では、「GANは生成モデルにブレークスルーをもたらしたが、GANはとても訓練が難しい」とさらっと書いてある。が、実際にコードを動かしてみると長々待ってできたのが使えない生成器という繰り返しは結構しんどい。
このサンプルは、VRAM 6GBの RTX A2000で動かしている。一つのstepに二十数秒かかっていてそれを300回繰り返しているから、トータルで1時間以上かかる。それだけ時間をかけて出てきた結果が使えない生成器だとがっかり。

何事もやってみないと分からない。

[1] Generative Deep Learning, 2nd Edition by David Foster, Released May 2023, Publisher: O'Reilly Media, Inc. ISBN: 9781098134181
[2] https://github.com/davidADSP/Generative_Deep_Learning_2nd_Edition

Generative Deep Learning 2nd Editionのサンプルを動かしてみた

2023-12-01 22:56:24 | AI

オライリーから出ている、Generative Deep Learning Second Edition [1]のサンプルは、Githubから入手できる。 03_vae/01_autoencoder/autoencoder.ipynbまでのサンプルを動かしてみたので、戸惑った点をメモに残しておく。 1. .env の置き場所 githubからpullすると、Generative_Deep_Learning_2nd_Editionというディレクトリができて、sample.envをはじめとするファイルが配置される。このディレクトリに.env ファイルを置く。 2. GPUを使う場合は NVIDIA Container Toolkit が必要 CPUだけとGPUを使う場合の両方がサポートされているが、GPUを使う場合はDockerをセットアップしたあとNVIDIAのサイトを参照して NVIDIA Container Toolkitをインストールする必要がある。 3. Jupyter notebookの開き方 Dockerイメージをアップするとその最後に下図のように http://172.0.0.1:8888/lab?token=*** というURLが表示されるので、それを開く。その部分は端末でURLとして認識されるのでプルアップメニューで「リンクを開く」を選べばよい。 Readme.mdには、http://localhost:8888 とあるが、それだとtoken authentication enabled という認証を求める画面が開いてしまう。

ちなみにPC環境は、第10世代 core i5 10600 (6コア 12スレッド) メモリ 16GB GPU: NVIDIA RTX A2000 OS: Ubuntu 22.04.3 LTS 2nd Edition の邦訳はまだない。英語版はAmazon.co.jp で kindle版も購入可能。また、eBooks.comからだとPDFやEPUB形式で購入できるようだ。なお初版は、生成 Deep Learning [2] というタイトルで邦訳が出ているが、サンプルが腐っているのでお勧めできない。そう、初版と2nd EditionではGithubにあるサンプルも全く別物で、初版の方はすでにサポート終了と宣言されている。おそらく、kerasの仕様変更が原因だと思うが03_03_vae_digits_train.ipynbなどがエラーになってしまう。そんな訳で私は2nd editionを買いなおした。 [1] Generative Deep Learning, 2nd Edition by David Foster, Released May 2023, Publisher: O'Reilly Media, Inc. ISBN: 9781098134181 [2] 生成 Deep Learning, David Foster著松田晃一, 小沼千絵訳、オライリー・ジャパン ISBN978-4-87311-920-5

Tesla K80でStable Diffusionを動かした

2023-10-18 00:31:25 | AI

もはやAI実験機と化したサブPCで、RTX A2000を使ってサクッとStable Diffusionが動いたのは先日の記事の通りだが、その一方で RTX A2000のメモリが6GBしか無いという制限は厳に存在する。ということで、24GB搭載のTesla K80 でも試してみることにした。空冷ファンの都合上サブPCには収まらないのでメインPCで実験。一度、RTX A2000でcuda 12.0の環境にしてしまっていたので、K80に戻して動作確認するまでにドライバやcuda tool kitの再インストールとかで手間取ったが、あとはstable-diffusion-webui をインストールしてStable Diffusionがさくっと動いたが、...

1. K80をちゃんと冷やさないとcudaのエラーで止まる. やけに処理に時間がかかるな、と思ってshellの画面をみるとcudaのエラーで stable-diffusionが落ちているという事がある。
2. K80の半分しか使われていない。Tesla K80はソフトから見ると12GBのメモリを搭載した2台のGPUなのだが、そのうち1台しか利用されない。どうも、複数のGPUを束ねて利用する機能は無いようだ。その代わり、Stable Diffusionを二つ立ち上げて、それぞれが別のGPUを使うというやり方があるそうな。
3. 遅い. RTX A2000で4枚40秒だったのがTesla K80だと2分16秒. まあ、K80はTensor コアも半精度も無い古いアーキテクチャなので当然の結果と言えなくもないが。

という事で、Stable Diffusionについてはヤフオクなどで捨て値で手に入るTesla k80で楽しめなくもないが、冷却のためのあれやこれやを考えたらアクティブ冷却(=冷却ファン内蔵)のGPUを選んだ方が合理的だろうというのが私の結論。

Stable Diffusion を動かしてみた

2023-10-01 18:52:04 | AI

いまさらながらStable Diffusionに興味を持ったので、動かしてみた記録。参考書は「画像生成系AI Stable Diffusion ゲームグラフィクス自動生成ガイド」※1

マシンは、CPUが Core i5-10600、主記憶 16GB、CドライブはM.2のSSD、グラボは RTX A2000 6GB。
OS は Windows 11 Home 22H2。

Githubからstable-diffusion-webui をgitでclone。

Pythonは、Anacondaでインストール。デフォルトだと Pythonは 3.11.4 だが、Stable Diffusion web UIのサイトや参考書には3.10.6と指定されている。
なので、Anaconda Navigatorで Environments タブを開き、下にあるCreate をクリックして新しいenvironment を追加。
選択肢にあるPythonのバージョンは3.10.13だけど、結果として問題なし。

Anaconda Navigatorで、図のように3.10.13のenvironemtのプルダウンからOpen Terminalでターミナルを開く。

Cloneしてきたディレクトリに移動し、webui-user.bat を実行すると初回はダウンロード&インストールが行われて、最後にEdgeが起きてWeb UIの画面が開く。
python仮想環境(venv) を使う設定になっているのでありがたい。
２度目以降は、webui-user.batを実行するとさくっとWeb UIが開く。
なお参考書では、VRAM 4GBのグラボでも動かせるようにwebui-user.batを小変更しているが、変更なしのそのままで使用した。
学習モデルもいくつかダウンロード。学習モデルの切り替えは時間がかかるように書かれていたが、derrida_final.ckptへの切り替えで５秒程度だった。
VAEの追加はパス。
で、参考書にあった呪文を試してみた一例が次の図。かかった時間は、４枚の画像を作成して20秒ほど。手軽に生成はできるけど、狙ったイメージの欲しい画を得るにはかなり試行錯誤がいりそうだと実感。

今回、stable-diffusion-webuiのおかげで環境構築がサクッとできたのはありがたかった。

※1 「画像生成系AI Stable Diffusion ゲームグラフィクス自動生成ガイド」、クロノス・クラウン柳井政和著、秀和システム ISBN978-4-7980-6233-4

goo blog お知らせ

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】「雪かき」をしたことがありますか？
	訪問者数に応じてdポイント最大1,000pt当たる！
	dポイントが当たる！無料『毎日くじ』