ナッシュJrの驚異”その４”〜ナッシュ均衡と展開形ゲーム理論

2023年11月03日 16時38分33秒 | 数学のお話

　1月以来の”ナッシュJr”ですが､まずは｢ゲーム理論｣について簡単におさらいします。

　ゲーム理論とは､社会･経済･ビジネス等の様々な領域で､そこに登場する個人･企業･政府をプレイヤーと見なし､どの様な行動をとるのかを数理的に分析し､利得における最適解を求める数理モデルです。
　つまり､現実の様々な問題を将棋やチェスの様なテーブルゲームと考え､プレイヤーがどの戦略(打つ手)を選ぶかを数学的に分析する事から､この名前がついた。
　このゲーム理論は､数学者のジョン･フォン･ノイマンと経済学者オスカー･モルゲンシュテルンが1944年に出版した｢ゲームの理論と経済行動｣を出発点とするが､その源流はノイマンの｢社会的ゲームの理論について｣(1928)の論文にある。

　ゲーム理論は､複数のプレイヤーが連携する”協力ゲーム”と個々のプレイヤーが独立に行動する”非協力ゲーム”とに分けられる。
　協力と非協力の区別は､ジョン･ナッシュJrの”非協力ゲーム”が1951年の博士論文で初めて定義され､これには”ナッシュ均衡解の定義と特性”が含まれている。
　ナッシュの定義によれば､協力ゲームではプレイヤー間の情報交換が可能で､その結果生じた合意が拘束力を持つのに対し､非協力ゲームにてはプレイヤー同士の情報交換が出来ず合意は拘束力を持たない。故に､当初はプレイヤー間の情報交換と拘束力ある合意の有無により､協力ゲーと非協力ゲーとに区別された。
　但し､両者の区別は決して明確ではなく､非協力ゲームの理論を用いて協力ゲームを説明する事が可能になり､事実､80年代における非協力ゲーム理論の急激な進歩に伴い､現在では､非協力ゲームは協力ゲームを包括する様になる。

戦略形ゲームとナッシュ均衡

　因みに､ゲームの表現形式として､戦略形･展開形･提携形の3つがあり､協力ゲームは提携形と戦略形に､非協力ゲームは戦略形と展開形に分けられる。
　戦略形は､ゲーム理論の標準となる形式で標準形とも呼ばれ､プレイヤーが他のプレイヤーの行動を観察できずに”同時に行動する”ゲームで､例としてジャンケンなどがある。
　一方､展開形ゲームは時間と情報の構造を扱える形式で情報量も多く､他のプレイヤーの行動を観察し自分の行動を選べるゲームで､例としてチェスや将棋などがある。
　故に､ここでは非協力ゲーム(戦略形と展開形)をゲーム理論の前提とします。

　そこで”その1”では､この戦略形ゲームと”ナッシュ均衡”について長々と述べました。
　戦略形ゲームでは､まずプレイヤーの利得を行列の各成分で表し､この利得行列の各成分の右下の数がプレイヤーで､行列の縦横の項目が戦略となる。
　そこで､自分の利得(ペイオフ)を最大にする最適解を求める事こそがゲーム理論の肝なんですが､戦略形では”ナッシュの均衡”なる法則が使われる。
　勿論､”ナッシュ均衡＝ゲームの最適解”という訳でもないが､ナッシュは”どのプレイヤーも戦略を変更する誘引を持たない様な戦略の組合せ”と定義した。
　ゲーム理論の基盤とある｢ナッシュ均衡｣をざっくり言えば､”他人の戦略を踏まえ､個々が自己利益を最大にする戦略を取り合ってる(均衡)状態”となる。
　しかし､共同で犯罪を行い逮捕された2人の囚人が黙秘するか自白するかを選択する際､自己の利益だけを優先しようと両者共に自白(非協力)を選択し､結局は両者に不利な結果となる”囚人のジレンマ”の有名なケースがある。

　こうした囚人ら”全員が他人の動向に関係なく､自己の利得が最大となる様に戦略をとりあう”状態を支配戦略(均衡)とも呼ぶ。しかし､このジレンマもナッシュ均衡の特殊なケースとされるが､最適解とはならない。但し､この場合の最適解は両者ともに黙秘(協力)である。
　つまり､参加者それぞれが最も合理的な行動をとっても､人は利己的に行動する癖がある限り､その状態が参加者すべてに最も理想的(パレート最適)だとは限らない。
　一般に､ジャンケンなどの(ある1つの選択肢を”確定的”に選ぶ)純粋戦略であれば､ナッシュ均衡は存在するとは限らないし､複数のナッシュ均衡が存在する事もある。だが､戦略を(確率を用いる)混合戦略まで拡張すると､必ずナッシュ均衡が存在する事が知られている。
　事実､資本主義経済には､企業間で商品の値下げ競争が行われる場合などに､ナッシュ均衡が出現する事がある。

　しかし､複数のナッシュ均衡が存在した時､どれが均衡として適切なのかは､ドイツのR･ゼルテンにより､ナッシュ均衡を精緻化した｢部分ゲーム完全均衡｣などが提案されている。
　一方で､行動ゲーム理論(行動経済学)では､実際の実験の結果､”囚人のジレンマ”におけるナッシュ均衡をもたらす”非協力”戦略が選択されるとは限らず､半数程度のプレイヤーは”協力”を選ぶ事がわかっている。

　(確かに)結論から言えば､この世の不合理な事は､核兵器開発競争･同業間の過当競争･労使抗争･恋愛関係や夫婦喧嘩まで､ゲーム理論の中の”ナッシュ均衡”で多くが説明できる。
　事実､ナッシュがゲーム理論の研究に従事してた(実際には博士過程時の僅か数年とされる)1940年代後半~50年代前半の米国は､第2次世界大戦から朝鮮戦争･米ソ冷戦へと移行し､国際連合･CIA･NSA･国防省創設の時代。
　つまり､当時の時代背景そのものにナッシュ均衡や囚人のジレンマの状況が多く存在していました。故に､ナッシュ均衡を理解する事は病んだ人類社会を救う”魔法の杖”を持つ様なものでした。

　この”ナッシュ均衡”については解った様で？？って人も多いでしょうが､”囚人のジレンマ”では支配戦略均衡というナッシュ均衡の特殊なケースについて､次回で詳しく説明したいと思います。
　そこで､今日は”その1”で紹介した戦略形に時間や情報構造を加えた､”展開形”ゲームについて説明します。
　

展開形ゲーム

　非協力ゲームには(ジャンケンなどの同時進行の戦略形とは異なり)､将棋やチェスの様に各プレイヤーが順番に意思決定を行う”展開形”がある。
　展開形ゲームは戦略形に時間や情報構造を加えたもので､様々な情報を導入する事で①各プレイヤーにいつ出番が回ってくるか？②自分の出番が回って来た時､各プレイヤーは何を知っているか？を指定できる。
　因みに､将棋やチェスの様に自分より先に行動したプレイヤーが何を選んだかが全て分かるゲームを”完全情報”の展開形と言い､(相手の打つ手が見えない)完全情報ではないゲームを”不完全情報”と呼ぶ。
　つまり､(ジャンケン等の)プレイヤーが同時に行動する戦略形は､不完全情報の展開形ゲームの典型な例とも言えますね。
　一方で､(交互に繰り返す)同時進行でない不完全情報ゲームの例として､相手の手札が見えない､麻雀･七並べ･大富豪･ポーカーなどがある。

　”その1”の戦略形ゲームは利得行列で表しましたが､(完全情報の)展開形のゲームでは”ゲームの木”で表します。
　ゲームの木(グラフ理論)とは､”頂点(初期点)から枝分かれする､分岐点(ノード)と枝(エッジ)を結ぶ有向線分(向きのある線分)で構成される。展開形では､ゲームの木における終点に利得(関数)が定義され､手番(ムーブ)と呼ぶ頂点以外の分岐点としてプレイヤーや情報構造が定義され､枝(エッジ)として戦略が定義される。簡単に言えば､頂点はスタートで､分岐点(ノード)はプレイヤーの状態(局面)で､枝(エッジ)は戦略の選択､終点が利得となりますね。

　そこで､簡単な例(上図参照)をあげて説明します。
　2つのコンビニA店とB店があり､L駅かR駅に出店する計画がある。
　コンビニを利用する客はL駅が600人でR駅が300人。A店とB店が違う駅を選べば利用客を独占できるが､同じ駅だと(キャパの多い)B店がA店の2倍の客を獲得できる。
　つまり､両店がL駅に出店するとA店が200人でB店が400人。B駅に出店だとA店が100人でB店が200人。但し､客数を利得と考える。
　そこで､まずA店が先に駅を選択し､B点はその情報を知ってから駅を選択する。果たして､A店とB店はどちらの駅に出店するだろうか？

　戦略形の様に同時に行動するではなく､プレイヤーが順番に行動をする展開形ゲームでは､上図の様に”ゲームの木”で表す。
　最初にA店がLかRを選び､それを知ったらB店がLかRかを選ぶと､結果(利得=客数)が決まる。つまり､木の頂点にはA店が､次の分岐点にはB店が記され､終点では互いの店の利得の組が記される。ここでは､(A,B)=(200,400)(600,300)(300,600)(100,200)の4つとなってますね。
　そこで､この木の構造を見て､A店はB店の出方を読み､最大利得となる様に駅を選択する。

　貴方がA店の主だったらどちらを選ぶだろうか？
　まずL駅を選ぶと､うまく行けば(B店がR駅を選べばだが)､600の利得を得るし､逆にR駅を選ぶとヘタすれば(B店がR駅を選べばだが)100の利得になる。故に､A店はL駅を選ぶのが答の様に思える。
　しかし答えをバラせば､”R駅を選ぶ”のが正解である。なぜか？
　当然の事だが､相手も利得を大きくしたいと考える。故に､”うまく行けば”とか”ヘタをすればと”とか自分勝手に考えるではなく､(ナッシュ均衡の様に)相手の行動を考え､自分の行動を最適になる様に選択する必要がある。その為には､相手の行動を”先読み”する必要がある。
　そこで､先読みして最適解を求める事にする。
　①AがLを選ぶと､BはLを選べば利得が400で､Rでは利得が300となり､当然Lを選ぶ。
　②AがRを選ぶと､BはLを選べば利得が600で､Rでは利得が200なのでLを選ぶ。
　これを先読みすると､A店はL駅を選ぶと(B店がLを選ぶので)利得が200で､R駅を選ぶと(B店がLを選ぶので)利得が300となるので､答えは”R駅を選ぶ”となる。

　以上より､戦略形ゲームは利得行列で表しナッシュ均衡で解くが､完全情報の展開形ゲームはゲームの木で表し､”先読み”で解くとなりますね。
　ポーカーなどの不完全情報の展開形ゲームはかなり複雑で難解で､｢ケリー基準｣などでもその必勝法？は紹介したので､ここでは省きます。

最後に

　因みに､ゲーム理論の創始者の一人でもあるフォン･ノイマンは(心理戦に左右される為か)ポーカーが苦手でした。その彼がポーカーなどの不完全情報のゲームから着想を得て､どうすれば勝てるのか？と学問にまで昇華させ､”ゲーム理論”を体系化したとされる。
　ただ､不確実な要素に対し､陰謀説やデマやカルトみたいに不確実なまま無責任に放棄(拡散)するではなく､具体的に問題と戦略を一般化する。
　これこそが数学的思考なんですよね。

　つまり､(当り前の事だが)誰しもがナッシュやノイマンになれる筈もなく､しかし､彼らの様に考える事はできる。
　私が多少はウツになりながらも､しつこく数学ネタを記事にするのもその為ですが､決して数学が好きだからとか､そこそこ得意だからとかいうのではない。
　”その1”でも言ったが､不確実性の今を生きるには､(合理的ではあるが)自分の利得しか考えない支配戦略や単純な戦略ゲームでは生き残れない。
　如何に不確実で不透明な世の中を数学的に考察し､正しく更新し続ける。そこに､知の限界はないと私は思うのだが・・・

　ゲーム理論のおさらいで少し長くなったので､今日はここまでです。
　次回は､ナッシュJrのゲーム戦略と囚人のジレンマについて詳しく掘り下げてみたいと思います。

2024年12月
日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

象が転んだ

たかがブロク､されどブロク

ナッシュJrの驚異”その４”〜ナッシュ均衡と展開形ゲーム理論

2 コメント

コメントを投稿