前回に引き続き、ベイズ統計と従来の頻度主義に基づくとされる統計との違いを調べます。
ニュートン別冊「ゼロからわかる統計と確率 ベイズ統計編」にベイズ統計を使うと良いという問題の事例が色々と載っています[Ref-1a]。私の感触では少ないデータから推定をしようとするスパースモデリング(Sparse modeling)あたりがベイズ統計と分類される手法を使わないとできない問題なのではないかと思えますが、まだその理解までは到達できないので置いておきます。
一般にベイズ統計で解けるとされていてネット上でもファンの多い?問題のいくつかが以下です。
1.稀な病気の検査
Code Zine 「架空の病気の検査を例として」
Bell Curve「10-6. ベイズの定理の使い方」
「臨床検査の偽陽性と偽陰性について」順天堂大学医学部附属浦安病院臨床検査医学科・三宅一徳
東京TMSクリニックのサイト
2.3つに1つの問題[Ref-5]
2-1.モンティ・ホール問題(Monty Hall problem)
2-3.3囚人問題(Three Prisoners problem)
2-3.ベルトランの箱の逆説(Bertrand's box paradox) [*1]
井田隆「ベルトランの箱のパラドックスとベイズ推定」
いずれも直感的に?考えそうな間違いの解答というものがあるのですが、それが頻度主義的方法によるもので正解はベイズ主義的方法でないと得られないのかというと、私にはそうは思えません。思うに間違える理由は、 正しい母集団を捉え損なうからです。ひとつずつ考えてみます。
【1.稀な病気の検査】
p:病気の場合に検査が陽性となる率
陰性となる率(偽陰性)は、(1-p)。通常p>>1-p。
q:健康な場合に検査が陰性となる率
陽性となる率(偽陽性)は、(1-q)。通常q>>1-q。
r:全人口での病気の人の比率(感染率)
稀な病気なので小さい
この条件で出された問題は「特定の人(私)が検査で陽性だった場合に、その人が病気である確率」です。
「pである」というのが答えそうな間違いです。しかしこの値は、母集団として病気の人を取ったものです。
正しくは母集団としては、検査で陽性になった人の集合を取らなければなりません。
r*p+(1-r)*(1-q)
ここで(1-r)>>rであるために、答えは案外とpよりも小さくなるのです。
以上の答えの前提として、検査を受ける前の予想(事前確率と言える)は感染率を採用しています。検査を受ける特定の人の個別事情は考慮していませんし、それは検査後の確率でも同じく考慮していません。そして感染率とは頻度そのものです。もちろん実際の測定値としての感染率は全数検査からではなく標本検査からの推定値ですから、その意味では頻度そのものとは言えませんが。
頻度主義だったら、検査後に病気である確率が変化するとは考えないのでしょうか? まさかね。
【2.3つに1つの問題】
特にモンティ・ホール問題ではリンク集「Web上のわかりやすい説明」さえあるほどです。見たところ生きてる感想「モンティ・ホール問題・三囚人問題・ベルトランの箱のパラドクス」(2016/02/16)では3つまとめて紹介している点、簡潔でわかりやすい説明と丁寧すぎるほどの図解による説明とを両方含む点、でお勧めです。
これらの問題は上記の「稀な病気の検査」の場合より理解が難しいでしょう。その理由は考えるべき母集団が「○○という選択をした場合の可能性」というかなり抽象的なものを要素とするからです。いわば可能な未来の集合、可能世界の集合とでもいうべきものを考える必要があるので混乱しやすいのだと思います。それをどういう図式で理解するのが考えやすいのかは人にもよるのでしょう。
モンティ・ホール問題では「交換してもしなくても確率1/2」というのが答えそうな間違いです。これは、選ぶ人(ゲスト)が先に選んだ箱と司会者(ホスト)が選んだ箱との違いを無視して同等だと即断したゆえの間違いです。
3囚人問題は、死刑にならず助かるということを当たりに当てはめ、自分以外の2人のうちで死刑になる者を教えるということを外れの箱を開けることに当てはめれば、モンティ・ホール問題と数学的にまったく同等であることがわかります。ただし、モンティ・ホール問題における選んだ箱は3囚人問題では主人公の囚人自身に当たるので、交換は不可能です。
逆に言えば、3囚人問題では自然に設定されていた限定条件がモンティ・ホール問題では設定自由度が高くなっており、それゆえ本来の設定を誤解しての批判もあったという見解も見受けられます。
ベルトランの箱のパラドックスでの答えそうな間違いは「金2つの箱の確率と金銀の箱の確率とが同じで1/2」というものです。答えそうな間違いが確率1/2というもの、という点は3つの問題の共通点のひとつです。
そして私には、モンティ・ホール問題等との共通点はこの点以外には見えず、構造はかなり違って見えます。「金2つの箱と金銀の箱と比べたら前者の方が金の出る確率は2倍もあるよね」というのは当然に思えるので私にとってはわかりやすい正解でした。実はこの問題は数学的には「1.稀な病気の検査」と同じ構造でした。わかりやすいのも道理です。ただし稀な病気では病気と健康の2状態だけに分類しましたが、それを3状態に分類します。以下の対応を見ればわかります。
金金=>病気、 金銀=>半病気、 銀銀=>健康
ひとつの引き出しを開ける=>検査をする
金が出た=>陽性、 銀が出た=>陰性
ps:病気の場合に陽性の確率 100%
pm:半病気の場合に陽性の確率 50%
pw:健康な場合に陽性の確率 0%
求めるべきは、陽性の時の各状態の確率です。一般化して病気の検査との対応もわかりやすくするために、金金、金銀、銀銀の頻度をそれぞれ、Ns、Nm、Nw、とします。言うまでもなく、例えば金金の頻度とは、[金金の箱の数]/[全体の箱の数]です。
すると、可能な検査結果(箱の引き出しを開けた場合の結果)の集合に対する、陽性結果(金だった場合)の集合の割合は、
分母=Ns*Ps+Nm*Pm+Nw*Pw
そして、可能な検査結果(箱の引き出しを開けた場合の結果)の集合に対する、検査した箱(その引き出しを開いた箱)が病気だった場合(金金だった場合)の集合の割合は、どの箱を選んで検査するかはランダムなので、
分子=Ns*Ps
そして、[分子/分母]が求めるべき条件付き確率になるわけです。この問題の数値では各状態の頻度がすべて等しいので以下の式となり、結果は2/3です。
[分子/分母]=Ps/(Ps+Pm+Pw)
3つの問題はいずれも何らかの情報を得た後に変化する確率というものを扱っているので、事後確率を考慮するベイズ主義で解くのだ、ということなのでしょう。では頻度主義なら条件付き確率は使えないのかというと、まさかね。頻度主義だと確率を同等とみなす、との記載も見受けられますが、それはあくまでも他の条件がない場合の仮定であって、上記の問題のように様々な条件が入ってくれば当然それを考慮した確率を計算するはずだし、その時に正しく問題の条件を見極めましょうというだけの話です。
そして正しく問題の条件を見極める私なりの方法が、前回も述べた、「分子と分母に来る量は何か?」と問うことです。
----------------------
*1) ベルトランのパラドクスとは異なる。
----------------------
Ref-1) ベイズ統計概説
Ref-1a) ニュートン別冊「ゼロからわかる統計と確率 ベイズ統計編」
Ref-1b) 松原望「ベイジアンの源流--トーマス・ベイズをめぐって」オベレーションズ・リサーチ(1983/09) p432-438
Ref-2) ベイズ論 vs 頻度論
Ref-2a) Diamond Online『「頻度論」の学者と「ベイズ論」の学者が対談したら』(2015/03/03)
Ref-2b) hidekatsu-izuno 日々の記録「ベイズ統計学に関する議論を整理する」(2020/12/12)
Ref-2c) 。「統計学はなぜ哲学の問題になるのか」 大塚 (2021),『哲學研究』606:1-24. プレプリント版。大塚淳『統計学を哲学する』名古屋大学出版会(2020/10/26) ISBN-13:978-4815810030、リンク先に詳しい目次あり。
Ref-2d) ダレル・P.ロウボトム;佐竹佑介(訳)『現代哲学のキーコンセプト 確率』岩波書店(2019/06/19) ISBN=9-784-00061346-0、リンク先に詳しい目次あり
Ref-2e) 赤池弘次「統計的推論のパラダイムの変遷について」統計数理研究所集報(1980) Vol.27,No.1,p5-12
Ref-3) Avilen「ベイズ統計の記事一覧」。初心者向け解説のベイズ統計学の解説。
Ref-3a) ベイズ統計学とは?初心者向けのやさしい解説
Ref-3b) ベイズ統計学の考え方〜ベイズ論と頻度論の違い〜
Ref-3c) ベイズ推定と最尤推定の違いを例題を用いて解説
Ref-3d) ベイズ推定量の導出!例題と解説(最尤推定量と比較)
Ref-4) 渡辺澄夫(東京工業大学)『ベイズ統計の理論と方法』コロナ社(2012/04/12) ISBN=978-4-339-02462-3、リンク先に詳しい目次あり。最新の良さそうな教科書。
Ref-4a) 著者自身による解説
Ref-4b) 統計学入門「主義」を心配するみなさまに。数理科学に主義なんて不要だよ、という解説。
Ref-5) モンティ・ホール問題・三囚人問題・ベルトランの箱
Ref-5a) モンティ・ホール問題好きのホームページより「Web上のわかりやすい説明」。深すぎて迷いそうです。
Ref-5b) 生きてる感想「モンティ・ホール問題・三囚人問題・ベルトランの箱のパラドクス」(2016/02/16)。必要なことが一番まとまってると、私は思う。
Ref-5c) 菊池耕士「モンティ・ホール問題における最尤法」 目白大学 総合科学研究 06号 (2010/03) p149-158。頻度主義でも解けるよ、という見解のひとつを表明。
ニュートン別冊「ゼロからわかる統計と確率 ベイズ統計編」にベイズ統計を使うと良いという問題の事例が色々と載っています[Ref-1a]。私の感触では少ないデータから推定をしようとするスパースモデリング(Sparse modeling)あたりがベイズ統計と分類される手法を使わないとできない問題なのではないかと思えますが、まだその理解までは到達できないので置いておきます。
一般にベイズ統計で解けるとされていてネット上でもファンの多い?問題のいくつかが以下です。
1.稀な病気の検査
Code Zine 「架空の病気の検査を例として」
Bell Curve「10-6. ベイズの定理の使い方」
「臨床検査の偽陽性と偽陰性について」順天堂大学医学部附属浦安病院臨床検査医学科・三宅一徳
東京TMSクリニックのサイト
2.3つに1つの問題[Ref-5]
2-1.モンティ・ホール問題(Monty Hall problem)
2-3.3囚人問題(Three Prisoners problem)
2-3.ベルトランの箱の逆説(Bertrand's box paradox) [*1]
井田隆「ベルトランの箱のパラドックスとベイズ推定」
いずれも直感的に?考えそうな間違いの解答というものがあるのですが、それが頻度主義的方法によるもので正解はベイズ主義的方法でないと得られないのかというと、私にはそうは思えません。思うに間違える理由は、 正しい母集団を捉え損なうからです。ひとつずつ考えてみます。
【1.稀な病気の検査】
p:病気の場合に検査が陽性となる率
陰性となる率(偽陰性)は、(1-p)。通常p>>1-p。
q:健康な場合に検査が陰性となる率
陽性となる率(偽陽性)は、(1-q)。通常q>>1-q。
r:全人口での病気の人の比率(感染率)
稀な病気なので小さい
この条件で出された問題は「特定の人(私)が検査で陽性だった場合に、その人が病気である確率」です。
「pである」というのが答えそうな間違いです。しかしこの値は、母集団として病気の人を取ったものです。
正しくは母集団としては、検査で陽性になった人の集合を取らなければなりません。
r*p+(1-r)*(1-q)
ここで(1-r)>>rであるために、答えは案外とpよりも小さくなるのです。
以上の答えの前提として、検査を受ける前の予想(事前確率と言える)は感染率を採用しています。検査を受ける特定の人の個別事情は考慮していませんし、それは検査後の確率でも同じく考慮していません。そして感染率とは頻度そのものです。もちろん実際の測定値としての感染率は全数検査からではなく標本検査からの推定値ですから、その意味では頻度そのものとは言えませんが。
頻度主義だったら、検査後に病気である確率が変化するとは考えないのでしょうか? まさかね。
【2.3つに1つの問題】
特にモンティ・ホール問題ではリンク集「Web上のわかりやすい説明」さえあるほどです。見たところ生きてる感想「モンティ・ホール問題・三囚人問題・ベルトランの箱のパラドクス」(2016/02/16)では3つまとめて紹介している点、簡潔でわかりやすい説明と丁寧すぎるほどの図解による説明とを両方含む点、でお勧めです。
これらの問題は上記の「稀な病気の検査」の場合より理解が難しいでしょう。その理由は考えるべき母集団が「○○という選択をした場合の可能性」というかなり抽象的なものを要素とするからです。いわば可能な未来の集合、可能世界の集合とでもいうべきものを考える必要があるので混乱しやすいのだと思います。それをどういう図式で理解するのが考えやすいのかは人にもよるのでしょう。
モンティ・ホール問題では「交換してもしなくても確率1/2」というのが答えそうな間違いです。これは、選ぶ人(ゲスト)が先に選んだ箱と司会者(ホスト)が選んだ箱との違いを無視して同等だと即断したゆえの間違いです。
3囚人問題は、死刑にならず助かるということを当たりに当てはめ、自分以外の2人のうちで死刑になる者を教えるということを外れの箱を開けることに当てはめれば、モンティ・ホール問題と数学的にまったく同等であることがわかります。ただし、モンティ・ホール問題における選んだ箱は3囚人問題では主人公の囚人自身に当たるので、交換は不可能です。
逆に言えば、3囚人問題では自然に設定されていた限定条件がモンティ・ホール問題では設定自由度が高くなっており、それゆえ本来の設定を誤解しての批判もあったという見解も見受けられます。
ベルトランの箱のパラドックスでの答えそうな間違いは「金2つの箱の確率と金銀の箱の確率とが同じで1/2」というものです。答えそうな間違いが確率1/2というもの、という点は3つの問題の共通点のひとつです。
そして私には、モンティ・ホール問題等との共通点はこの点以外には見えず、構造はかなり違って見えます。「金2つの箱と金銀の箱と比べたら前者の方が金の出る確率は2倍もあるよね」というのは当然に思えるので私にとってはわかりやすい正解でした。実はこの問題は数学的には「1.稀な病気の検査」と同じ構造でした。わかりやすいのも道理です。ただし稀な病気では病気と健康の2状態だけに分類しましたが、それを3状態に分類します。以下の対応を見ればわかります。
金金=>病気、 金銀=>半病気、 銀銀=>健康
ひとつの引き出しを開ける=>検査をする
金が出た=>陽性、 銀が出た=>陰性
ps:病気の場合に陽性の確率 100%
pm:半病気の場合に陽性の確率 50%
pw:健康な場合に陽性の確率 0%
求めるべきは、陽性の時の各状態の確率です。一般化して病気の検査との対応もわかりやすくするために、金金、金銀、銀銀の頻度をそれぞれ、Ns、Nm、Nw、とします。言うまでもなく、例えば金金の頻度とは、[金金の箱の数]/[全体の箱の数]です。
すると、可能な検査結果(箱の引き出しを開けた場合の結果)の集合に対する、陽性結果(金だった場合)の集合の割合は、
分母=Ns*Ps+Nm*Pm+Nw*Pw
そして、可能な検査結果(箱の引き出しを開けた場合の結果)の集合に対する、検査した箱(その引き出しを開いた箱)が病気だった場合(金金だった場合)の集合の割合は、どの箱を選んで検査するかはランダムなので、
分子=Ns*Ps
そして、[分子/分母]が求めるべき条件付き確率になるわけです。この問題の数値では各状態の頻度がすべて等しいので以下の式となり、結果は2/3です。
[分子/分母]=Ps/(Ps+Pm+Pw)
3つの問題はいずれも何らかの情報を得た後に変化する確率というものを扱っているので、事後確率を考慮するベイズ主義で解くのだ、ということなのでしょう。では頻度主義なら条件付き確率は使えないのかというと、まさかね。頻度主義だと確率を同等とみなす、との記載も見受けられますが、それはあくまでも他の条件がない場合の仮定であって、上記の問題のように様々な条件が入ってくれば当然それを考慮した確率を計算するはずだし、その時に正しく問題の条件を見極めましょうというだけの話です。
そして正しく問題の条件を見極める私なりの方法が、前回も述べた、「分子と分母に来る量は何か?」と問うことです。
----------------------
*1) ベルトランのパラドクスとは異なる。
----------------------
Ref-1) ベイズ統計概説
Ref-1a) ニュートン別冊「ゼロからわかる統計と確率 ベイズ統計編」
Ref-1b) 松原望「ベイジアンの源流--トーマス・ベイズをめぐって」オベレーションズ・リサーチ(1983/09) p432-438
Ref-2) ベイズ論 vs 頻度論
Ref-2a) Diamond Online『「頻度論」の学者と「ベイズ論」の学者が対談したら』(2015/03/03)
Ref-2b) hidekatsu-izuno 日々の記録「ベイズ統計学に関する議論を整理する」(2020/12/12)
Ref-2c) 。「統計学はなぜ哲学の問題になるのか」 大塚 (2021),『哲學研究』606:1-24. プレプリント版。大塚淳『統計学を哲学する』名古屋大学出版会(2020/10/26) ISBN-13:978-4815810030、リンク先に詳しい目次あり。
Ref-2d) ダレル・P.ロウボトム;佐竹佑介(訳)『現代哲学のキーコンセプト 確率』岩波書店(2019/06/19) ISBN=9-784-00061346-0、リンク先に詳しい目次あり
Ref-2e) 赤池弘次「統計的推論のパラダイムの変遷について」統計数理研究所集報(1980) Vol.27,No.1,p5-12
Ref-3) Avilen「ベイズ統計の記事一覧」。初心者向け解説のベイズ統計学の解説。
Ref-3a) ベイズ統計学とは?初心者向けのやさしい解説
Ref-3b) ベイズ統計学の考え方〜ベイズ論と頻度論の違い〜
Ref-3c) ベイズ推定と最尤推定の違いを例題を用いて解説
Ref-3d) ベイズ推定量の導出!例題と解説(最尤推定量と比較)
Ref-4) 渡辺澄夫(東京工業大学)『ベイズ統計の理論と方法』コロナ社(2012/04/12) ISBN=978-4-339-02462-3、リンク先に詳しい目次あり。最新の良さそうな教科書。
Ref-4a) 著者自身による解説
Ref-4b) 統計学入門「主義」を心配するみなさまに。数理科学に主義なんて不要だよ、という解説。
Ref-5) モンティ・ホール問題・三囚人問題・ベルトランの箱
Ref-5a) モンティ・ホール問題好きのホームページより「Web上のわかりやすい説明」。深すぎて迷いそうです。
Ref-5b) 生きてる感想「モンティ・ホール問題・三囚人問題・ベルトランの箱のパラドクス」(2016/02/16)。必要なことが一番まとまってると、私は思う。
Ref-5c) 菊池耕士「モンティ・ホール問題における最尤法」 目白大学 総合科学研究 06号 (2010/03) p149-158。頻度主義でも解けるよ、という見解のひとつを表明。
※コメント投稿者のブログIDはブログ作成者のみに通知されます