百醜千拙草

何とかやっています

Negative dataについての雑感

2011-02-11 | Weblog
2/3号のNatureのCorrespondence欄に、最近話題になった超能力の存在を報告した論文について、"Nagative data"の重要性についてのコメントが寄せられています。超能力の研究は数十年前は盛んで、プリンストン大にも超能力研究所がありました。結局、超能力が存在するという客観的な証拠が得られず、確か研究所は閉鎖になったはずです。因みに私は超能力を信じております。超能力を持つ人間と余り持たない人間がいて、多分、後者が圧倒的に多数なので、被験者をランダムに選ぶと、科学的には証明できないのだろう、と想像しております。これは一つの"Negative data"です。疾病に対するある新薬の薬効を調べる場合でも、患者対象をある基準で絞り込めば、絞り込まない場合に「有効とは言えない」という結論が、「有効」と判断されるようになることがよくあります。"Negative data"は、数多くの明らかでない原因によって得られるわけですが、場合によっては、その原因を明らかにして排除していくことで"Positve data"になる可能性があるということです。科学研究の場合、Positive data は、即ち、何かと何かを比較して、差のあることが統計的に示されるということであり、通常は「比較されているものの間には、差がない」という「帰無仮説」を却下することによって得られます。(帰無仮説の棄却によらずに、直接「差があること」を検定する方法もあるそうですが、私のような実験研究者が使う統計処理には普通、用いられないと思います)ですので、通常の統計処理だと「差がない」という帰無仮説の却下に失敗した場合に「差があるとはいえない」という"Negative data"になるわけです。「差があるとはいえない」と「差がない」には天と地ほどの開きがあります。話はちょっと変りますが、小沢氏の問題などでの推定無罪というのはこういう理屈と共通するものがあります。即ち、「罪がない」ことを証明することは不可能なので、「罪があるとは言えない」ことをもって「無罪」とみなすということです。これは、国民全員にあてはまります。われわれが道を歩いていていきなり逮捕されたりしないのは、「罪を犯していない」からではなく、「罪を犯しているとは言えない」からに過ぎません。そして「罪を犯しているとは言えない」ことを「無罪」と呼んでいるのです。
 "Negative data"の話に戻りますと、帰無仮説の却下に失敗する場合というのは、数限りない可能性があります。極端な話、実験のヘタクソな人に実験をやらせると、本人でさえ自覚していないような誤りをおかしてヘンなデータがでて、本来、"Positive data"になるべきものでさえ、"Negative"になったりします。ですので、"Negative data"は、解釈可能なものから、この手のどうしようもないレベルのものまで質がバラバラで、"Negative data"のクオリティーを判別することが困難なことが多いので、大抵の場合、"Negative data"は、出版されることも少なく、闇から闇に葬られることになるのです。しかし、"Positive data"にも同様の可能性があります。実験にヘンな癖のある人が、知らない間におかす誤りによって、"Positive data"になる場合もあります。それで、通常、研究者は常にデータを疑って、色々な可能性を見分けるために複数のコントロール実験を行うわけです。因みに、実験で常に考えておくべきものとして、(あいにく出典を知りませんが)「ポジティブコントロール、ネガティブコントロール、そして実験の価値」であると私は習いました。この三つの言葉を私は机の前に貼付けています。
 さて、"Positive data"とは何か、それは通常、何かと何かを比べて、統計処理を行った場合に、ある一定の危険率(通常、0.05未満)をもって、有意差がある、と判断されたデータのことです。危険率は本当は差がないのだけれども、マグレ当たりで差がでると判断される確率を示します。とすると、例えば、危険率0.049で有意とされた場合、4.9%の率でその仮説が誤りである可能性があるということです。
 それで、このNatureのコメントにもどりますと、この超能力を証明した論文、これが、もしも危険率5%で有意と判断されたデータであるならば、その結論が誤りである可能性が5%あるということになります。一方、これまで数多くの超能力の研究は行われて来ており、プリンストンの超能力研究所が閉鎖になったのも「超能力が存在する」という"Positive data"が得られなかったからです。この手の超能力の実験は、実験数が少ないうちは何らかの有意差が出る場合が多いようですが、実験数を増やしてやると、結局、差が消失してしまうのだそうです。とすると、この超能力が統計的有意差をもって存在するという結論を得たこの論文はたまたまPositive data だったので出版されましたが、表にでてこないものの中には、おそらく「超能力は統計的に存在するとは言えない」という"Negative data"は無数にあって、多くは出版されずに忘れ去られていると考えられます。一つ一つの論文を一データとして眺めると、このCorrespondentの人の主張は、例えば19報の『超能力が存在するとは言えない』という出版されなかった論文があったとして、この1報の論文が危険率5%で「超能力が存在する」と言うのであれば、この論文が危険率5%のマグレ当たりである、という可能性もあるのではないか、という話です。
 私、これは正論だと思います。しかし、出版されていない"Negative data"を解析に加えることはできませんから、いくら厳密にやろうとしても、統計処理の前に、恣意的な線引きは行わざるを得ません。だからこそ統計データというものはその前提を十分考慮することが大切だろうと、私は思います。

 また出典不明の話ですが、イギリスで年間観察されたコウノトリの数と赤ちゃんの出生率の相関を調べたら有意な相関があったそうです。この統計結果から意味のある結論を導く事ができるかどうかは、コウノトリと赤ちゃんとの間に何らかの関係が存在するという仮説がある場合です。例えば、コウノトリが赤ちゃんを運んでくるという仮説が、科学的根拠に基づいて考慮される場合、コウノトリの数と出生率の相関性が仮説を支持するという議論をするのは順当だと思います。あるいは、コウノトリと人間の生殖行動が何らかの共通のメカニズムで同様に制御されている、という仮説がある場合もOKだと思います。しかるに、超能力の場合はどうでしょう。超能力がどのようなメカニズムで可能となっているのかという(因果論的)仮説が多くの場合欠如しています。科学というのもは基本的に唯物論、因果論に基づいて観察される事象の説明を求める活動ですから、この例のようにリーズナブルなメカニズムなしに、単に統計処理をしたら有意差が出た、というだけでは、そのデータには、科学的な意味がないと私は思います。
 私は超能力は信じておりますが、超能力が科学的方法によって示されるかという点においては懐疑的です。一方、統計は余り信用しておりません。簡単な思考実験をしてみます。完璧に作られたさいころを投げるとします。10回連続して投げてみると、10回とも1が出たとすると、普通は驚いて、宝くじでも買ってみるか、という気分になるのではないでしょうか。それは10回連続して1がでる確率が極めて低いことを知っているからです。その確率とは完璧なサイコロを投げると、ランダムに1 から6の数字が出るという前提に則って計算されるわけで、この場合だと自由度5のカイ二乗分布に従う(たぶん)として計算されます。しかし、私には「ランダム」というものが実際にあるのかどうか、よく分かりません。ある事象がランダムに起こっているように見える時に、それが本当にランダムであるかどうか証明できるのでしょうか?どこまでいっても、「ランダムでないとは言えない」というレベルに留まるのではないでしょうか。
 また、確率に関して私の気に入らないことは、サイコロで1が連続して10回でてスゴいというのは、この10回をまとめて考えてはじめて意味があります。過去9回のサイコロの結果を忘れてしまえば、サイコロをふったら1が出たということには何の驚きもありません。ならば、この結果がスゴいかどうかは、その事象の観察者が恣意的にどの結果を解析に含めるかによって全く変ってくるということになるのではないでしょうか。同様のことが、この超能力論文にも言えそうな気がします。

さて、Negative dataの問題は、研究活動の様々な面から考える必要がある問題だと思います。例えば、実験的研究では、多くの場合で、違う研究室で行った"同じ"研究が異なる結果を産むことがあります。その場合に"Positive data"を出した方は出版できますが、"Negative data"であった方は出版に苦労します。そしてしばしば、Negative dataを出した方は、positive dataにならないかと思ってしつこく実験するので、Positive dataを出した方よりも、結論が正しいことがままあります。そうすると、sloppyに実験をやってマグレでPositive dataが出た方が、誤った結論を出版して、"Negative data" に終わった方はその誤ったデータが出版されたお陰で、ますます出版が困難になるということがしばしば起こります。科学出版においては、仮説を検証しして何らかの真実を明らかにするという研究活動の結果がPositive dataになるかNegative dataになるかで、論文の帰趨は大きく変わります。この辺がPositive dataを得ることに対する研究者の強いバイアスとそれに伴う捏造データ事件の理由でもあると思います。

時間が切れてしまいました。エリスロポイエチンを物理的に発見したEugene Golwasserの訃報の記事について書くつもりでしたが、それは次の機会に譲ります。
コメント    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« アメリカ流民主主義の欺瞞 | トップ | 強さの秘密、大阪デモ »
最新の画像もっと見る

コメントを投稿

Weblog」カテゴリの最新記事