象が転んだ

たかがブロク、されどブロク

ナッシュJrの驚異”その1”〜非協力ゲームと”ナッシュの均衡”

2023年01月21日 13時38分38秒 | 数学のお話

 NHKBSでは、映画「ビューティフル・マインド」(2001)が放送されていた。
 ラッセル・クロウのジョン・ナッシュ役は(互いに変わり者で有名だったせいか)とてもハマってた。実際、若い頃のナッシュは精悍で躍動溢れるな顔立ちで、ラッセルにも負けてはいない。天才数学者にイケメンが多いのは何か理由があるのだろうか。
 だが、妻アリシア役のジェニファー・コネリーは巨乳女のイメージが強く、天才数学者の半生を描いたドラマにしては、ほんの少しだが物足りなさを覚えなくもなかった。
 だが、序盤でのロシア軍の暗号をアッサリと見抜くシーンは、”本当の天才とは結論から始める”という真の天才の直感の凄みを、まざまざと見せつけられたような気がした。
 因みに、ナッシュ自身が暗号解読に関わった事実はないとの噂もある。


ナッシュJr

 さてと、ジョン・フォーブス・ナッシュJr(1928-2015)と言えば、博士論文「非協力ゲーム」の中の”ナッシュ均衡”と呼ぶ定義が有名で、非協力ゲーム理論の創始者とされる。
 が、自身は”(ゲーム理論は)私の仕事の中で特につまらないもの”と評してた様に、数学者としての評価を高めたのはゲーム理論ではなく、リーマン多様体に関する仕事であった。
 事実、リーマン予想の証明に専心し、そのあまりの困難さが彼の精神をむしばむ要因となったという声もある。
 指導教官に”この男は数学の天才である”と言わしめ、僅か29歳の若さでMITの終身職員の権利を得るが、この頃から異常な言動が目立ち始め、パラノイド型統合失調症と診断される。
 やがてMIT職員を辞職し、ヨーロッパとアメリカを放浪する旅に出る。最愛の妻アリシアとも離婚し、病状は更に悪化する。が、アリシアは(妻ではなく)同居人として彼の闘病を支え、お陰で少しずつ回復していく。
 統合失調症から快復したナッシュは、1994年にゲーム理論に関する功績によりノーベル経済学賞を受賞し、アリシアとも再婚。
 しかし、2015年5月にリーマン多様体の埋め込み問題に関する功績によりアーベル賞を受賞。オスロで行われた授賞式からの帰路、タクシーの事故で、2人は共に車外に投げ出され死亡した(享年86歳)。
 闘病時のナッシュは、”自身は特別な役割を担い、世界で最も重要な人物である”という誇大妄想に取りつかれてたとされる。
 周りの評価が望んでた程に高くなく、もっと認められたいとの願望や、ナッシュの天才的思考が過度な負担になったのが原因とされた。その後、精神薬を断ち、妄想や幻聴による思考を自ら意識的に排除する事で、徐々に症状が落ち着いていく。

 僅か29歳の若さで学問の頂点に君臨したナッシュですが、実際に評価され認められたのは、晩年の60代後半の事である。”特に詰まらないもの”と軽視してたゲーム理論が自身を救い。一方で、高く評価されてたリーマン多様体の研究が認められ、その授賞式の後に交通事故で亡くなるというのも、ナッシュのパラドクスと言えるのかもしれない。
 もし彼がその天才的思考をゲーム理論に集中させてたら、不運な人生は一変してたかもだが、彼もまた”リーマンの呪い”の犠牲者の1人と言えなくもない。カントールもそうだが、連続体仮説の手前で辞めとけば、奇怪な人生は一変してたであろうか。
 以下でも述べるが、ナッシュ均衡とは互いが最適解を巡って競い合う均衡状態の事であるが、ナッシュにとってゲーム理論こそが最適解だったのかもしれない。

 そこで、ナッシュを人生のどん底から救ったゲーム理論について述べたいと思います。


ゲーム理論とは?

 まずはゲーム理論というものを大まかに説明します。
 ゲーム理論とは、社会・経済・ビジネス等の様々な領域で、そこに登場する個人・企業・政府をプレイヤーと見なし、どの様な行動をとるのかを数理的に分析し、(利得における)最適解を求める数理モデルです。
 つまり、現実の様々な問題を将棋やチェスの様なテーブルゲームと考え、プレイヤーがどの戦略(打つ手)を選ぶかを分析する事から、この名前がついたとされる。
 ゲーム理論は、数学者のジョン・フォン・ノイマンと経済学者オスカー・モルゲンシュテルンが1944年に出版した「ゲームの理論と経済行動」を出発点とされるが、その源流はノイマンの「社会的ゲームの理論について」(1928)の論文にあるとされる。
 そこで、ゲーム理論の全てを紹介したいんですが、非常に多岐に複雑にわたるので、今日はナッシュ博士が定義した非協力ゲーム、特に”ナッシュ均衡”について述べます。

 ゲーム理論は、複数のプレイヤーが連携する”協力ゲーム”と個々のプレイヤーが独立に行動する”非協力ゲーム”とに分けられる。
 協力と非協力の区別は、ジョン・ナッシュの「非協力ゲーム」という1951年の博士論文で初めて定義された。これには”非協力ゲームにおけるナッシュ均衡解の定義と特性”が含まれている。
 定義によれば、協力ゲームにおいてプレイヤー間の情報交換が可能であり、その結果生じた合意が拘束力を持つのに対し、非協力ゲームにてはプレイヤー同士の情報交換が出来ず合意は拘束力を持たない。故に、当初はプレイヤー間の情報交換と拘束力ある合意の有無により、協力ゲーと非協力ゲーとに区別された。
 しかし後に、非協力ゲーム(特に展開形ゲーム)におけるプレイヤー間の情報交換が情報集合として記述・考察できる様になった為に、協力と非協力の区別は、拘束力ある合意が可能か否かだけとなる。
 但し、両者の区別は決して明確ではなく、非協力ゲームの理論を用いて協力ゲームの問題を説明しようとするナッシュ・プログラムも存在する。
 現在では、非協力ゲームから始め、協力の問題を分析するのが主流になり、そういう意味では、非協力ゲーム理論は協力ゲーム理論の基礎であるとも言える。事実、1980年代における非協力ゲーム理論の急激な進歩に伴い、協力ゲーム理論の経済分析における重要性は大きく低下したとされる(ウィキ)。

 因みに、ゲームの表現形式として、戦略形・展開形・提携形の3つがある。協力ゲームは提携形と戦略形に、非協力ゲームは戦略形と展開形に分けられる。
 戦略形は、ゲーム理論の標準となる形式で標準形とも呼ばれ、プレイヤーが他のプレイヤーの行動を観察できずに”同時に行動する”ゲームで、例としてジャンケンなどがある。
 一方、展開形ゲームは時間と情報の構造を扱える形式で情報量も多く、他のプレイヤーの行動を観察し自分の行動を選べるゲームを言う。例としてチェスや将棋などがある。
 故に、ここでは非協力ゲーム(戦略形、展開形)をゲーム理論の前提とします。
 少し長くなりますが、ご勘弁をです。


戦略形ゲーム

 まずは、幅広く使われる戦略形ゲームを数学的に堅苦しく説明する(上の図1参照)。
 ①プレイヤーの集合N:={1,...,n}とし、②各プレイヤーi∈Nにとって選択可能な戦略の集合をSᵢとする。③各プレイヤーの利得関数をfとすれば、fᵢ:×[k∈N]Sₖ→Rの組の集合G=(N、{Sᵢ}、{fᵢ})により定義される。少し堅苦しいですが、図を見れば簡単に理解できます。

 そこで、プレイヤーが2人だけの単純なゲームの例では、双行列(図1)によって戦略形ゲームを表記できる。
 プレイヤー集合をN:={1,2}で、戦略集合をそれぞれS₁:={A,B}S₂:={L,R}とすれば、プレイヤーの利得関数fは利得行列の各成分によって表せます。つまり、プレイヤー1の戦略{A,B}が縦軸でプレイヤー2の戦略{L,R}が横軸の2×2行列を考える。
 例えば、行列の(1,1)成分の(w₁,w₂)はプレイヤー1と2の利得関数はそれぞれf₁(A,L)=w₁、f₂(A,L)=w₂となり、(1,2)成分の(x₁,x₂)では利得関数はf₁(A,R)=x₁、f₂(A,R)=x₂となりますね。
 以上の様に、戦略形ゲームではプレイヤーの利得を行列の各成分で表し、この利得行列の各成分の右下の数がプレイヤーで、行列の縦横の項目が戦略となります。

 そこで、自分の利得(ペイオフ)を最大にする最適解を求める事こそがゲーム理論の肝ですが、戦略形では”ナッシュの均衡”なるものが使われる。
 勿論、ナッシュ均衡だけで全てのゲームの最適解が求まる訳でもないが、ナッシュは”どのプレイヤーも戦略を変更する誘引を持たない様な戦略の組合せ”と定義した。
 このゲーム理論の基本の基であるナッシュ均衡をざっくり言えば、”他人の戦略を踏まえ、個々が自己利益を最大にする戦略を取り合ってる(均衡)状態”となる。
 しかし、共同で犯罪を行い逮捕された2人の囚人が黙秘するか自白するかを選択する際、自己の利益だけを優先しようと両者共に自白(非協力)を選択し、結局は両者に不利な結果となる「囚人のジレンマ」の例がある。
 因みに、こうした囚人ら”全員が他人の動向に関係なく、自己の利得が最大となる様に戦略をとりあう”状態を支配戦略(均衡)とも呼ぶ。しかし、このジレンマもナッシュ均衡の特殊なケースとされるが、当然の如く最適解とはならない。因みに、この場合の最適解は両者ともに黙秘(協力)である。
 つまり、参加者それぞれが最も合理的な行動をとっても、人は利己的に行動する癖がある限り、その状態が参加者すべてに最も理想的(パレート最適)だとは限らない。

 一般に、ジャンケンなどの(ある1つの選択肢を”確定的”に選ぶ)純粋戦略だけで考えれば、(以下で述べるが)ナッシュ均衡は存在するとは限らないし、複数のナッシュ均衡が存在する事もある。
 但し、戦略を(確率を用いる)混合戦略まで拡張すると、必ずナッシュ均衡が存在する事が証明されている。
 事実、資本主義経済においては、企業間で商品の値下げ競争が行われる場合などに、ナッシュ均衡が出現する事がある。
 しかし、複数のナッシュ均衡が存在した時、どれが均衡として適切なのかは、ドイツのR・ゼルテンにより、ナッシュ均衡を精緻化した「部分ゲーム完全均衡」などが提案されている。
 一方で、行動経済学の分野である行動ゲーム理論には、人が実際にナッシュ均衡をもたらす戦略を選択するか否かが実験的に確かめられた。囚人のジレンマにおけるナッシュ均衡をもたらす戦略である”非協力”が選択されるとは限らず、半数程度のプレイヤーは”協力”を選ぶ事がわかっている。故に、既存のゲーム理論は再検討の必要があるとされる(コトバンク)。


ナッシュの均衡

 このナッシュ均衡を、ゲーム理論で説明すれば、”どのプレイヤーも、他のプレイヤーがその均衡の戦略を選んでる元では、その戦略が一番利得が高くなる(他の戦略では利得が同じか低くなる)”となる。
 つまり、”全てのプレイヤーが最適反応戦略(最大利得)を互いに選び合う戦略の組合せ”と言えますね。

 これを上の図2(参照)で説明すれば、プレイヤー2がLを選んだ元ではプレイヤー1の利得は5(A選択)か2(B選択)となり、故に、最大利得(最大反応戦略)を得るにはAを選べばいい。一方で、プレイヤー2がRを選んだ時は、プレイヤー1の利得は1か3となり、Bを選べば最大利得となる。つまり、プレイヤー1にとって最大利得の組は赤の下線を引いた(A,L)=(5,3)と(B,R)=(3,0)となる。
 次にプレイヤー2を考える。プレイヤー1がAを選んだ元で、プレイヤー2の利得は3(L)か4(R)となり、最大利得を得るにはRを選べばいい。また、プレイヤー1がBを選んだら、プレイヤー2の利得は1か0となり、Lを選べば最大利得となる。つまり、プレイヤー2にとって最大利得の組は赤線を引いた(A,R)=(1,4)と(B,L)=(2,1)となる。
 故にこの場合は、最大利得の組(赤線部)が交わらない為に、ナッシュ均衡は存在しない。
 一方で、上の図3(参照)で見れば(同様にして)、プレイヤー1では(A,L)=(2,3)と(B,R)=(4,1)の2つが最大利得となり、また、プレイヤー2でも(A,L)と(B,R)の2つが最大利得となる。
 故に、(A,L)と(B,R)の2つの組がナッシュ均衡となる。

 但しこれは、ある選択肢を確定的に選ぶ純粋戦略での話であり、このナッシュ均衡も(確率を使って選ぶ)混合戦略となると、少しややこしくなる。
 そこで、図2を例にし、2☓2ゲームの混合戦略を考えます。
 結論から言えば、プレイヤー1と2の利得の期待値を別々に算出し、それらが共に最大となる様に混合戦略の確率(p,q)の定義からナッシュ均衡の組(解)を求めます。
 まず、プレイヤー1がAを選ぶ確率をp(Bを選ぶ確率は1−p)とする。次に、プレイヤー2がLを選ぶ確率をq(Rを選ぶ確率は1−q)とする。ここでは、”100%選択するORしない”という単純戦略は省くので、0<p<1,0<q<1となりますね。
 因みに、全ての戦略を選ぶ確率が正である混合戦略を”完全混合戦略”と呼ぶ。

 まず、プレイヤー1の期待利得E1は、全利得{5,1,2,3}とその確率{pq,p(1-q),(1-p)q,(1-p)(1-q)}のそれぞれの要素の積の和になるので、E1=pq×5+p(1−q)×1+(1−p)q×2+(1−p)となり、E1=p(5q−2)−q+3ー①と変形します。
 そこで、混合戦略の確率の定義(0<p<1)より、”5q−2”に注目すれば、5q−2>0時のp=1と5q−2<0時のp=0がE1が最大になるのが判る。故に、プレイヤー1の最適戦略は、q>2/5(p=1)とq<2/5(p=0)とq=2/5(0<p<1)となります。
 次に、プレイヤー2の利得期待値E2=pq×3+p(1−q)×4+(1−p)q×1=q(−2p+1)+4pー②が最大になるのは、同様に”−2p+1”に注目すれば、プレイヤー2の最適戦略は、p<1/2(q=1)とp>1/2(q=0)とp=1/2(0<q<1)となる。

 最後に、pをx軸にqをy軸にし、最適戦略図(上図のグラフ1参照)を書いて答えを導きます。
 E1を青線でE2を赤線で表すと、プレイヤー1の最適戦略E1とプレイヤー2の最適戦略E2の交点(p,q)=(1/2,2/5)がナッシュ均衡の解(組)である事が判りますね。
 つまり、プレイヤー1はAを1/2、Bを1/2の確率で選び、プレイヤー2はLを2/5、Rを3/5の確率で選ぶのがナッシュ均衡となる。
 但し、グラフを使わないで計算だけで求める方法もありますが、様々な留意点があるので、グラフを使った方が一般的で簡単です。
 図3の例でも、混合戦略のナッシュ均衡は存在し、(p,q)=(1/4,2/3)となる。純粋戦略のナッシュ均衡の2つの組は(A,L)の時はp=q=1となり、(B,R)の時はp=q=0となるが、勿論これは混合戦略の定義に違反しますね。


補足

 因みに①式ですが、E1=p(4q+1)+(1−p)(−q+3)と変形すれば、q=2/5の時は4q+1=−q+3=13/5となる。故に、E1=13p/5+13(1−p)/5=13/5となり、プレイヤー1のナッシュ均衡の期待利得E1は13/5となる。
 一方で、プレイヤー2のナッシュ均衡の期待利得E2は、②式とp=1/2よりE2=4p=2となる。
 つまり、これから解る様に、ナッシュ均衡ではプレイヤー1はpに関係なく期待利得E1は13/5になる。同様にプレイヤー2もqに関係なく期待利得E2は2となる
 これは、どんな確率で選んでも最適利得戦略になるので、果たしてナッシュ均衡(p=1/2)を選ぶ戦略の動機があるのか?となる。
 これを論じた”完備情報の混合戦略ナッシュ均衡は不完備情報の純粋戦略ナッシュ均衡の極限として表現できる”という「ハルサニの定理」があるが、興味はある人はサイトをググってみたらどうだろう。 

 一方で図2の例では、純粋戦略におけるナッシュ均衡は存在しないが、混合戦略のナッシュ均衡が1つ存在する。また、図3の例では、純粋戦略のナッシュ均衡は2つ存在し、混合戦略のナッシュ均衡も1つ存在する。 
 以上をまとめると
 (1)まず純粋戦略のナッシュ均衡を求める。
 (2)”囚人のジレンマ”の様に(他プレイヤーの選択によらず、他の全ての戦略より高い利得を得られる)支配戦略がある場合は、純粋戦略のナッシュ均衡が1つあるだけで、完全混合戦略のナッシュ均衡はない。
 (3)完全混合戦略のナッシュ均衡がある場合(図2と図3の例)は、各プレイヤーが2つの戦略を選んだ時の確率を(p,q)とし、それぞれの期待利得を求め、最適戦略のグラフを使って、ナッシュ均衡の組(p,q)を求める。
 因みに、(2)は紹介しませんでしたが、互いに利得のみを追求すればそれが自明な解となり、選択の確率は関係ない。但し、囚人のジレンマの様に例外もありますが、次回に説明します。

 この様に、混合戦略のナッシュ均衡は各参加者の行動確率(p,q)の組の解として表され、(プレーヤー数と戦略数が)有限の混合戦略ゲームでは少なくとも1つのナッシュ均衡が存在する事が証明されてます。
 以上、TechNote、NABENAVI.NET、経営工学.comなどのコラムを参考にしました。
 初めてゲーム理論なるものを知ったので、長々と受け売りの様な記事になりましたが、まずは”ナッシュ均衡”さえ理解すれば、何とかなりそうですね(多分)。

 次回は、今回紹介した戦略形に時間や情報構造を加えた展開形ゲームや、不確実な時代を生き抜く為のゲーム理論のあり方について述べたいと思います。
 不確実性の今を生きるには、(合理的ではあるが)自分の利得しか考えない囚人のジレンマの様な支配戦略や単純な戦略ゲームでは生き残れない。
 故に、如何に不確実で不透明な現実という生き物を数学の力で可視化(展開)できるか?そしてそれらの情報を丹念に辛抱強く考察し、更新し続ける。そこに、知の、いや数学の限界はないと私は思いたい。
 ナッシュやノイマンが言いたかったのは、そういう事なのかもしれない。



6 コメント

コメント日が  古い順  |   新しい順
Unknown (1948219suisen)
2023-01-21 15:23:56
この映画はnhkBSで観ました。細かい内容は忘れましたが、やはり天才と何とかは紙一重と思ったことを覚えています。結局晩年に若い頃の業績が認められるんですね。大きな賞を受賞した人にはそういう人が多いらしいですね。考えさせられる映画だと思いました。
返信する
ビコさん (象が転んだ)
2023-01-21 17:50:21
”天才とキチガイは紙一重”というのには
大きな疑問もあります。
が、これに関しては後で記事にするかもです。

若い頃の研究が晩年に認められるという事実は、それだけ理解や検証するに時間が掛かった訳で、これこそが天才の真の悲劇ですよね。
簡単な論文やテーマはすぐに理解され評価される。が、困難なテーマはそうじゃない。
事実、ナッシュの場合も”特に詰まらない”と漏らしたゲーム理論(経済学)が先に脚光を浴びました。
しかし、(元々ナッシュが望んでた)リーマン多様体という数学の理論が光を浴びたのは、死ぬ間際でした。

映画ではこうした所も忠実に再現してほしかったんですが・・・贅沢と言うもんでしょうね。
小難しい記事を読んで下さって有り難うです。
返信する
強支配と囚人のジレンマ (paulkuroneko)
2023-01-21 23:39:51
キューバ危機では
ノイマン自身が原子力安全委員会の委員長として、ソ連とアメリカの間に立ち、"囚人のジレンマ"を見事に回避しました。
結果的に、米ソ互いに引く事で核戦争回避という最適解を導いた訳ですが、流石にゲーム理論の創始者だけあり、数学の力が世界戦争を防いだとも言えますね。
囚人のジレンマはナッシュ均衡の特殊なケースともされますが、強支配戦略の均衡とした方が誤解はないのでしょうか。 
返信する
paulさん (象が転んだ)
2023-01-22 05:59:09
つまりキューバ危機は
ゲーム理論で分析され、ゲーム理論で阻止されたんですね。
数学が世界を救った、貴重な例ですね。
全く凄い事です。
でも、そのノイマンも長崎に落とされたプルトニウム爆弾の製造に大きく貢献した研究者の1人ですから、複雑な思いもします。

一方で、バートランド・ラッセルが対ソの問題で奇行を繰り返した事も明らかにされてますが。(カントールを無視した)あまり好きでない数学者なのでザマミロっげですか。
支配戦略には強戦略と弱戦略があるんですが、次回で紹介したいと思います(多分)。

貴重なコメント、とても助かります。
返信する
3つのシーン (平成エンタメ研究所)
2023-01-23 10:00:43
僕はエンタメの視点から、この作品を語りたいのですが、
・ナッシュの幻想が消えて、見えていた世界が180度変わった展開。
・その後の妻との愛。
・そしてノーベル賞を獲って皆に祝福されるシーン。
これらのシーンを忘れることができません。

アラン・チューリングを描いた『イミテーションゲーム』といい、数学者の作品はどれも素晴らしいですね。
返信する
エンタメさん (象が転んだ)
2023-01-23 13:07:47
正直いうと
この映画を全て見た訳ではないのですが
ラッセル・クロウがナッシュをどう演じるか?興味を持って見ましたが、とても巧く演じてました。
ただ私は、天才が壊れるのを見たくないんでしょうね。妻アリシアが登場する辺りから見るのを辞めました。
ナッシュの生き様があまりにも純朴すぎて、それに”ガラスの心”を持つ天才数学者が”キチガイと紙一重”と印象を与えるのも少し残念ですかね。

但し、ナッシュは自身が壊れてく過程を冷静に分析し、時間を掛けゆっくりと回復させていったそうです。
映画ですから、史実とは異なる部分も多いんですが、これだけ世界中を感動させた点では、ナッシュ夫妻もとても救われたんではないでしょうか。

小難しい記事にコメント有り難うです。
返信する

コメントを投稿