(株)カプロラクタム-blog

果たしてココは何処なのだろうか・・・
否!ココは(株)カプロラクタム代表取締役兼社員αのweblogである!

アルファ碁ゼロ、将棋も攻略

2017年12月06日 | 時事
Googleが最強のチェス・将棋AI「AlphaZero」を発表 わずか24時間の自己学習で最強AIを上回る
まるで永世7冠の誕生を待っていたかのようなタイミングで(笑)google社がチェスと将棋を攻略したと発表した模様です。

この アルファ碁ゼロはいわゆるディープラーニング(深層学習)タイプのAIですが、囲碁のルールの他に、これまで「教師データ」としてプロ棋士の棋譜等を読み込ませていた作業をすっ飛ばし、0から自己対局のみで強くしたというものです。以前の記事の後、自分も論文を探し出して読んでみました。最初の1局とされる棋譜は本当にルールもろくに理解していない超初心者がランダムに石を置き続け、生きたり取られたりした後にも置き続けると言うある意味恐ろしい碁で(笑)その後3時間経ってもまだコウを理解できず石を延々取り合う棋譜が紹介されていましたが、10時間後にはついに一般的な基本定石を発見し、19時間後に死活や地と厚みといった概念を習得。おそらくこの辺りで有段者と打てるレベルになったと思われます。そして55時間で人類がまだ知らなかった定石を編み出し、72時間で韓国のトッププロを倒したアルファ碁1.0に100戦100勝の実力に辿り着いたとか。ただし、その後は40日間学習して世界1位カケツを倒したアルファ碁2.0にやっと勝率で上回れたわけで、必ず勝てる実力とまではいかなかった模様です。この時点でレーティングは5000以上!トッププロが3500、プロ試験合格レベルは2500と言われていますが、レートの上昇グラフを見るとまるで対数関数のような感じで、72時間(3500)前後を境に強さの上昇が極めて緩やかになっていくようです。40日で見切りをつけたわけは、おそらくこれ以上は何ヶ月と動かしてもレート100も増えないと判断したのだろうと思われます。つまり、現在のディープラーニングのシステムでは、このアルファ碁2.0より強いゼロが囲碁の強さの上限と言えるのかもしれませんね。ちなみに最終の棋譜も見てみましたけど、やはり意味不明でした(笑)結構初期からそういう傾向がありますけど、何故あんなにすぐ三三に入りたがるのだろう・・・?

で、そのアルファ碁ゼロに、今度は将棋とチェスを教えて0から24時間ディープラーニングさせた後、現最強AIとの対局を100回行ってみたというのが今回の発表のようです。何故人間でなくAIかというと、チェスは20年以上前に既に世界チャンプがAIに負けていますし、将棋もこの前ポナンザが佐藤天彦名人を圧倒しましたから、最早AIの力を測る相手はAIしかないと言うことですね(笑)一応、それまでのアルファ碁は人間の教師データを用いて進化していましたから、いわば「人類vs人類の英知の集大成」であり、人間の頂点と戦い超えることに意義がありましたが、アルファ碁ゼロは教師データを用いず0から誕生しているので、言わば鉄人兵団と戦うのと同義となってしまい、ディープマインド社側に「人類とAIが敵対する」という構図を避けたい心情もあった模様です。まあそんな難しい理屈じゃなくても、AI同士なら休まず24時間対局しても疲れませんし、人間と100戦と言う選択肢は流石にないですな。
今回対局したelmoはそのポナンザよりも強いAIということですが、何と生まれて1日のゼロの90勝8敗2分けだったとか・・・完勝ではないにしても、9割勝てればまず明白に上回ったと言えるでしょうね。囲碁のグラフの件もありますし、おそらく今回は24時間という縛りで試したかったと言う所でしょう。ちなみにチェスは28勝0敗72分けとあるので、一応無敗だったようですが、勝つというよりも負けないためにルール上引き分けに持ち込む手が最善であることが多いみたいですね。○×ゲームみたいなものか・・・それってゲームとしてどうなの(笑)

囲碁は少なくとも人間を圧倒するのに3日かかったわけですけど、まさか将棋は1日で抜かれてしまうとは。今回の発表の一番の収穫はココですね。「囲碁は将棋の3倍複雑」・・・って、単純に手数が3倍だからかな?