先学期からベイズ統計学の授業を受講中。講師は心理学のJohn Kruschke先生。「R」という主に統計用に開発されてきたフリーソフトを使う。先学期以来、ほぼ毎週、プログラムを書き直してはチェックして、またダメでチェックして、というのが続いてます。これは辛い。。。 (基本にするのはKruschke先生が書いて与えてくれる、洗練されたプログラムです)
先学期はまだベイズ統計学のコンセプトを知るため、シンプルで一瞬で計算が終わるプログラムを使っていたのですが、2学期目の今学期はいよいよホンモノの分析で使うようなプログラムおよびデータを使用。こうなると、ベイズの定理に従った計算ではなくて、MCMC(Markov Chain Monte Carlo)というサンプリングを使ってPosterior(日本語で何と言うのでしょう? 知りません)の確率分布を推定することになります。
今回の宿題を今日終えましたが、著者のWebにある本物のサーベイデータを使用、これが2700人ちょっと、8つの説明変数を使用した重回帰分析(のベイズ統計学バージョン)なので、すごい数の計算が行われる。まして、Posterior Predictive Checkと言って、推定したパラメータに従ってデータを予測する、というシミュレーションも行うので、恐ろしい数の計算になる。
私は自分のPCでなんとか15分くらいで終わりましたが、「ずーっと動いてて、しまいにクラッシュするんですけど・・・」と受講者専用のWeb上の情報交換ページ(Forumと呼ばれる)にメッセージを出す人もいます。それでも、個人のノートPC程度のパワーでこれほどの計算ができるってのはちょっと前までは考えられなかったことで、だからようやっとベイズ統計学が実用化されるようになったのだとか(コンセプト自体は、現在のPearsonなどに基づく現在主流の統計理論よりも一世紀近く前にBayesさんによって提案されていたとの話)。
そのせい(おかげ)で、こういう分析技術を身につけざるを得ないのはけっこうしんどい。でもKruschke先生の話では、これまでの統計は理論的な問題があり、そういう問題がない上に分析の自由度の高いベイズ統計学が今後主流になるのは間違いない、とのこと。
実際、ベイズ統計学は既にいろいろ使われていて、言語学に限っても、去年の「Phonology」に利用例が出たとか。他にも、NATUREに数年前に載ったインドヨーロッパ語族の起源の推定(トルコのアナトリア地方という仮説を支持する)にも、MCMCが用いられていたことに勉強しだしてから気づきました。私と同じくDe Jong先生の下で音声学を研究するNoah(もうすぐPh.D)もベイズ統計学の使い手で、音声知覚のデータに用いる。自分も続けと、必死にしがみついて受講を継続中。
「R」は音声学の「Praat」同様、研究者が無償で提供したため、あちこちの研究者が寄ってたかってさまざまなプログラムを追加して、いまやとてつもなくパワフルな統計パッケージになっているらしい。ベイズ統計による分析ならMATLABを使ってもできるし、従来の統計ならSPSSなどもありますが、それらはバカ高い。日本でもSPSS高いでしょうけど、こっちでも一般ユーザは$2,000超えます(IUの学生は一年$35)。
今学期は同時に多変量分析の授業も受講中。こちらも数学が終わったら、「R」を使用して分析を行うとの話。いい機会なのでなんとかマスターしたいものです。(でもとりあえず今週はいよいよ線形代数の試験(怖))
画面は今日の分析結果が表示されたところ。8つの独立変数のサンプリングの軌跡が見られます。
先学期はまだベイズ統計学のコンセプトを知るため、シンプルで一瞬で計算が終わるプログラムを使っていたのですが、2学期目の今学期はいよいよホンモノの分析で使うようなプログラムおよびデータを使用。こうなると、ベイズの定理に従った計算ではなくて、MCMC(Markov Chain Monte Carlo)というサンプリングを使ってPosterior(日本語で何と言うのでしょう? 知りません)の確率分布を推定することになります。
今回の宿題を今日終えましたが、著者のWebにある本物のサーベイデータを使用、これが2700人ちょっと、8つの説明変数を使用した重回帰分析(のベイズ統計学バージョン)なので、すごい数の計算が行われる。まして、Posterior Predictive Checkと言って、推定したパラメータに従ってデータを予測する、というシミュレーションも行うので、恐ろしい数の計算になる。
私は自分のPCでなんとか15分くらいで終わりましたが、「ずーっと動いてて、しまいにクラッシュするんですけど・・・」と受講者専用のWeb上の情報交換ページ(Forumと呼ばれる)にメッセージを出す人もいます。それでも、個人のノートPC程度のパワーでこれほどの計算ができるってのはちょっと前までは考えられなかったことで、だからようやっとベイズ統計学が実用化されるようになったのだとか(コンセプト自体は、現在のPearsonなどに基づく現在主流の統計理論よりも一世紀近く前にBayesさんによって提案されていたとの話)。
そのせい(おかげ)で、こういう分析技術を身につけざるを得ないのはけっこうしんどい。でもKruschke先生の話では、これまでの統計は理論的な問題があり、そういう問題がない上に分析の自由度の高いベイズ統計学が今後主流になるのは間違いない、とのこと。
実際、ベイズ統計学は既にいろいろ使われていて、言語学に限っても、去年の「Phonology」に利用例が出たとか。他にも、NATUREに数年前に載ったインドヨーロッパ語族の起源の推定(トルコのアナトリア地方という仮説を支持する)にも、MCMCが用いられていたことに勉強しだしてから気づきました。私と同じくDe Jong先生の下で音声学を研究するNoah(もうすぐPh.D)もベイズ統計学の使い手で、音声知覚のデータに用いる。自分も続けと、必死にしがみついて受講を継続中。
「R」は音声学の「Praat」同様、研究者が無償で提供したため、あちこちの研究者が寄ってたかってさまざまなプログラムを追加して、いまやとてつもなくパワフルな統計パッケージになっているらしい。ベイズ統計による分析ならMATLABを使ってもできるし、従来の統計ならSPSSなどもありますが、それらはバカ高い。日本でもSPSS高いでしょうけど、こっちでも一般ユーザは$2,000超えます(IUの学生は一年$35)。
今学期は同時に多変量分析の授業も受講中。こちらも数学が終わったら、「R」を使用して分析を行うとの話。いい機会なのでなんとかマスターしたいものです。(でもとりあえず今週はいよいよ線形代数の試験(怖))
画面は今日の分析結果が表示されたところ。8つの独立変数のサンプリングの軌跡が見られます。