象が転んだ

たかがブロク、されどブロク

ナッシュJrの驚異”その5”〜不確実な時代と進化ゲーム

2025年01月08日 03時36分04秒 | 数学のお話

 前回「その4」では、展開系ゲーム理論と”ナッシュ均衡”について掘り下げて述べましたが、結論から言えば、この世の不合理な事は、核兵器開発競争・同業間の過当競争・労使抗争・恋愛関係や夫婦喧嘩まで、ゲーム理論の中の”ナッシュ均衡”でその多くが説明できる。
 ナッシュJrが考案した非協力ゲームですが、その中には(戦略形の他に)時間や情報構造を加えた”展開形”ゲームがある。更に、相手が何を選んだかが全て分かるゲームを”完全情報”の展開形と言い、(相手の打つ手が見えない)完全情報ではないゲームを”不完全情報”と呼ぶ。従って、戦略形ゲームは利得行列で表し”ナッシュ均衡”で解くが、完全情報の展開形ゲームは”ゲームの木”で表し、”先読み”で解くとなる。
 例えば、ポーカーなどの不完全情報の展開形ゲームは複雑かつ難解で、ケリー基準やエドワードの必勝法を使うが、ゲーム理論の創始者の1人でもあるフォン・ノイマンはポーカーが苦手でした。その彼がポーカーなどの不完全情報のゲームから着想を得て、どうすれば勝てるのか?を経済学にまで昇華させ、”ゲーム理論”を体系化しました。

 数学の世界では、不確実な要素に対し、陰謀説やデマやカルトみたいに不確実なまま無責任に放棄(拡散)するではなく、具体的に問題と戦略を一般化し、その場と状況に応じた最適解を導き出す。
 つまり、”不確実性の今を生きる”には、自分の利得しか考えない支配戦略や単純な戦略ゲームでは生き残れない。故に、如何に不確実で不透明な世の中を数学的に考察し、正しく更新し続ける必要がある。
 

前回までのおさらい

 昨年12月以来、約1年ぶりのナッシュJrですが、これまでを簡単に振り返ります。
 まず「その1」では、非協力ゲーム(協力ゲーム含む)に属する戦略形ゲームと、その代表的なケースである”囚人のジレンマ”と呼ぶ「ナッシュ均衡(均衡理論)」について長々と紹介しました。
 因みに、ゲームの表現形式には戦略形・展開形・提携形の3つがあり、ノイマンの協力ゲームは提携形と戦略形に、ナッシュJrの非協力ゲームは戦略形と展開形に分けられます。
 ただ、80年代に入ると非協力ゲーム理論の急激な進歩に伴い、協力ゲーム理論の重要性は大きく低下し、協力ゲームは非協力ゲームに取り込まれ、今ではゲーム理論と言えば、ナッシュの非協力ゲームとなる。
 つまり、ゲーム理論を語るには戦略形と展開形を知ればよく、ジャンケンなどの単純なゲームは戦略形とされ、その代表的なものに”囚人のジレンマ”があります。一方、展開形はチェスや将棋の様に、時間と情報の構造を扱える形式で情報量も多く、他のプレイヤーの行動を観察し自分の行動を選ぶゲームを言う。

 次に、「その2」では少し脱線し、ナッシュJrの”天才と奇行”についてドキュメント風に描きました。しかし、彼は数々の奇行や苦悩に陥りながらも、自身が大学時代に主張した「埋め込み定理」を密かに温めてました。
 これは、”全てのリーマン多様体はユークリッド空間(曲率がゼロの空間)の中へ等長に埋め込む事ができる”というものですが、”ガウスの曲率”を起点にした主張ですが、リーマンはガウス曲率を多様体と呼ぶ高次元空間にまで拡張し、それを引き付いだのがナッシュでした。やがて彼は”リーマン予想”に誘い込まれ、他の天才数学者がそうであった様に、ナッシュ自身も精神を病んでしまいます。
 更に「その3」では、ナッシュJrの心臓部である”埋め込み理論”について、ナッシュ自身のインタヴューを交え、長々と補足しました。

 そして「その4」では、戦略形に時間や情報構造を加えた展開形ゲームや、不確実な時代を生き抜く為のゲーム理論のあり方について述べました。
 当然ですが、不確実性の今を生きるには、(合理的ではあるが)自分の利得しか考えない”囚人のジレンマ”の様な強欲な支配戦略や単純な戦略ゲームでは生き残れない。
 一方「補足編」では再び脱線し、「不動点定理」について書いたが、この定理は角谷静夫によって証明され(1941)、ナッシュJrにより”ナッシュ均衡”を表現する為に用いられ、その後ゲーム理論や経済学における幅広い分野で応用されている。
 ナッシュ均衡の起点となったこの理論を振り返ると、まず「不動点定理」とは、自己写像f:A→Aは少なくとも1つの不動点(f(x)=x,x∈A)を持つ事を言い、ブラウワーは、n次ユークリッド空間のコンパクト(有界閉集合)な部分集合から定義される連続関数の不動点(それを含む集合へ写像される点)の存在を示した。が、角谷は不動点の存在を集合値函数へと更に一般化した。

 例えば、Sをユークリッド空間Rⁿの空でないコンパクトな凸部分集合とする時、φ:S→2ˢが集合値函数で、φ(x)は全てのx∈Sに対し、空でない(中身が詰まった)凸な閉集合である時、φは不動点を持つとなる。
 この定理は、任意のプレイヤー数で混合戦略の有限ゲームでのナッシュ均衡の存在を保証するもので、Sをゲームの各プレイヤーにより選ばれた混合戦略の構成要素からなる複数の組の集合とすると、函数φ(x)はxにおける他のプレイヤーの戦略に対する各プレイヤーの最善の反応の複数組の集合関数となる。
 ここで、φは集合値であるが故に、ゲームのナッシュ均衡はφの不動点、即ち各プレイヤーの戦略が他のプレイヤーの戦略に対する最善の反応となる様な戦略の組の集合値となる。 
 ナッシュは、不動点定理を自身の非協力ゲーム理論の混合戦略に置き換え、不動点を”均衡状態”に結びつけた。ナッシュのゲーム理論を均衡理論とも呼ぶが、経済学の立場からゲーム理論を発見したノイマンに対し、純粋数学からゲームの均衡理論を発見したナッシュの天才はノイマンのそれを遥かに超えたものと言える。 

 前置きが長くなりましたが、ナッシュJrのゲーム理論も時代と共に進化し、今では不確実な現実に対抗すべく開発された、淘汰と選択に基づく”進化ゲーム”について紹介します。


不確実な現実に適応する為に

 現実の世界では、私たちを取り巻く状況は不確実で、それが意思決定に影響を及ぼす。どのような行動が選べるのかも不確実で、またその結果として得られる利益も明確ではない。
 情報の非対称性とは、こうした不確実な情報の中で、プレイヤーごとの情報が異なる場合をいい、ゲーム理論の重要な分析テーマとなる。
 例えば、企業が消費者に製品を販売する時、企業は品質について情報を持ってても、消費者はそうでない事がある。つまり、企業が良い品質の製品を売ってるのに、消費者がそれを悪い製品と推測すれば、製品の売上は減少する。この様に、情報の非対称性は情報を持たない側だけでなく、持っている側にも不利益になる事がある。

 こうした不完備(不完全)情報の理論に対しては、トーマス・ベイズ(英)が示した、確率論の「ベイズの定理」が大きな役割を果たす。
 この定理の重要な点は、ゲーム理論ではデータや情報ですら、プレイヤーの戦略として操作(更新)される可能性がある。
 先程の例で考えると、消費者は、最初に企業の製品の品質が良いか悪いかについて、あらかじめ予測してると考えます(事前確率)。
 ここで、他の消費者がその製品を購入するのを見たり、企業が製品の品質について広告するのを見る事で、自分の情報を更新する(事後確率)。この時に、「ベイズの定理」が使われるが、もしかすると消費者は企業側に立ったサクラかもしれないし、広告も正しいかは分からない。すると、更新された情報も正しいかどうか分からなくなる。
 不完備情報ゲームでは、各プレイヤーは自分以外のプレイヤーの行動から情報を獲得し、他のプレイヤーはその事を念頭に置いて戦略的に行動する。実際に、オークションや入札、品質に不確実性がある財の取引や相手の能力に不確実性がある時の契約などに、不完備情報のゲーム理論は応用されている。

 この様にナッシュやノイマンのゲーム理論には、戦略的行動や合理的行動と呼ばれるプレイヤーの行動を前提とした理論と、(以下で述べる)選択と淘汰を前提にした”進化ゲーム”と呼ぶ理論の2つがある。つまり、合理的なプレイヤーを前提にしたゲーム理論とは区別し、進化ゲームと呼ばれる。
 これは生物の進化を説明する為に作られた理論で、プレイヤーが選ぶ戦略は利得を最大にするではなく、遺伝的に決まっていると考える。そして、利得(この場合は適応度)が大きい戦略のプレイヤー(この場合では種)が多くの子孫を残し、長期間で選択と淘汰が起き、プレイヤーの種の比率(戦略の比率)が決まる。
 例えば、ある生物に攻撃的な種と温厚な種が存在し、攻撃的な種は温厚な種より多くの子孫を残すが、攻撃的な種だけが増えれば破滅的な闘争が起きる。結果的に、2つの種(戦略)がある比率で共存する事になる。
 その後、進化ゲームは社会科学でも発展し、組織におけるフリーライダー(対価を支払わずに利益を受け取る者)に対し、”罰則を課す”厳格な行動と”大目に見る”温厚な行動は共存するのか?といった、人間社会の行動を進化で解釈する為にも応用されている。


進化ゲームとダイナミクス

 ナッシュの非協力ゲーム理論では、事前に利得関数を把握し、適切な戦略を計算しゲームに臨む合理的なプレイヤーを想定して、その意思決定を分析した。が進化ゲーム理論では、繰り返されるゲームの中で結果的に生み出される利得に基づき、事後的に戦略を変更するプレイヤーを想定し、その戦略分布の変化を力学系として分析する事で合理的思考を行わないプレイヤーをも扱える。
 この様に進化ゲームでは、どの戦略が安定して繁栄するかを分析し、進化的に安定な戦略を分析する動学的モデルや学習により戦略分布が変化する学習ダイナミクスなどを用いる。

 歴史で見れば、非協力ゲーム理論の創始者であるナッシュJrは1950年の博士論文にて既に、混合戦略を含めた”ナッシュ均衡点”の大衆行動の解釈にて、ゲーム構造の知識や複雑な論理的思考などは仮定せずに、純粋戦略の相対的な利益についての経験的情報の蓄積を仮定した。それから20年余りが経った1973年には数理生物学者のジョン・スミスと集団遺伝学者のジョージ・プライスが”戦略の突然変異”において、進化的に安定な戦略の概念を提唱。
 その後、ピーター・テイラーらは自然選択(淘汰)に基づくダイナミクス(集団力学)を用いて、戦略の動学的な安定性を検討した。
 因みに、ダイナミクスとは物理用語で”動学的”と呼び、物体が運動する時の力学的な振る舞いを説明するが、集団内の動きや影響の解明できるとしてゲーム理論では”集団力学”を意味する。 

 80年代後半には、経済学や政治学などの社会科学分野に、こうしたダイナミクスによる進化ゲーム理論の成果が逆輸入され、90年代以降は試行錯誤や模倣といった単純な学習や集団状態への最適反応をとる戦略や、複雑な学習による戦略分布の変動を分析する学習ダイナミクスが用いられた。一方でそれに対し、突然変異による選択圧を強力な作用と捉える確率進化や、それに、ゲームをプレイする相手が完全な無作為抽出ではない選択的相互作用などが研究されている。
 この様に、ゲーム理論の枠組みを集団遺伝学や個体群動態論に応用して成立した理論とも言えるが、ゲーム理論の戦略を集団の種として捉え、物理学的な領域の中で淘汰や進化で考えると、これまた様々な見方が出来るのも興味深い。


最後に

 以上の進化ゲームに関しては、「ゲーム理論」(吉田章 著)に詳しく書かれてるが、これまでのブログで紹介した一般的な”ナッシュ均衡”や”ゲーム木”理論は序盤にとどめ、ゲームのモデル毎に拡張した種々の均衡概念や、均衡同士の相互の関係性の”解の存在性”といった議論を600頁以上に渡り、詳しく紹介されている。
 物理学の領域と言っても、解析や集合の論法に慣れておく必要があり、経済学から数理モデルの領域へと大きくシフトしたゲーム理論とも言える。つまり、集団内の種の属性を戦略とみなし、淘汰や選択という偶然性と必然性の要素を取り入れ、ナッシュのゲーム理論は不確実性な現代社会を解き明かす重要なツールとなる事も理解できる。

 という事で、次回は再び”囚人のジレンマ”に舞い戻り、集団行動におけるジレンマ(逆理)について書きたいと思います。 



コメントを投稿