医学はこうして統計学をハッキングした
医学はこうして統計学をハッキングした医学はこうして統計学をハッキングした
崩壊する医学統計
2019年に大ヒットした『FACTFULNESS』という本がある。2018年には『世界一シンプルで科学的に証明された究極の食事』、2017年には『「原因と結果」の経済学』と、統計を通してものごとを見ようという本には安定した人気があるようだ。
この3冊には、どれも著者が医師だという共通点がある。
どうも医師は統計を絶対視しがちなのかもしれない。あるいは、そういうふるまいを医師に期待する、何かの需要があるのかもしれない。
たしかに医学の論文や教科書には統計がたくさん出てくる。「エビデンスに基づく医療」(Evidence-based medicine)という言葉を聞いたことがある人は多いだろう。詳しい人なら、ランダム化比較試験とかメタアナリシスという言葉をある程度説明できるかもしれない。医学は統計学を取り込むことで新しい時代を迎えたとされる。
しかし筆者は、大多数の医師はそれほど統計を信用していないと思うし、統計を使いこなすことが優秀な医師の条件だとも思わない。
そもそもほとんどの医師は学者ではない。学者ではないから、未確定な仮説をよく知っている必要はないし、自分の手で検証しようとするべきでもない。
そして以下で見るように、医学統計は客観的とか科学的というイメージからはほど遠く、抜け道だらけ、問題だらけだ。その結果、いまや「エビデンスに基づく医療」のコンセプトそのものが崩壊しようとしている。
この記事は全3回にわたって、医学における統計の扱われかたの変遷と、その結果として生まれたモンスターのような統計ハッキングの技法のいくつかを紹介する。
医学統計といえば「ランダム化比較試験」
すべてはRCTから
統計のハッキングについて説明する準備として、まずは素朴な統計学の説明をいくらかしておこう。医学統計の手法は無数にあるが、そのうち特に重視されているのがランダム化比較試験(Randomized Controlled Trial; RCT)だ。簡単に言ってこういうことをする。
1. ほどよい数の患者を集める。
2. 患者をランダムに2グループに振り分ける。
3. 一方のグループにはある薬を飲ませ、他方には飲ませない。
4. 薬を飲んだグループのほうがよく治っていれば、薬が効いたと言える。
この説明は極限まで単純化したものだ。実際には心理的な効果を想定してニセの薬(プラセボ)を飲ませたりもするし、評価に先入観を与えないために二重盲検法を使うことも多い。そういう細かい話に興味がある人は医学統計の教科書を読んでほしい。高校数学の確率と統計を理解していれば十分読めるはずだ。
ここでは話を続けるために、「RCTはきわめてよくできた研究方法で、医学における統計はほとんどがRCTを軸に考えられている」と覚えておいてほしい。
RCTのアイディアがいかにシンプルで力強いかはこの記事ではとても書き尽くせない。ある意味では誰でも思いつきそうなことでもある。だからRCTの歴史は長い。
photo by iStock
聖書にある臨床試験
旧約聖書にもRCTに近い実験をしたという話が出てくる。
ダニエルは、侍従長が自分たち四人の世話係に定めた人に言った。
「どうかわたしたちを十日間試してください。その間、食べる物は野菜だけ、飲む物は水だけにさせてください。その後、わたしたちの顔色と、宮廷の肉類をいただいた少年の顔色をよくお比べになり、その上でお考えどおりにしてください。」
世話係はこの願いを聞き入れ、十日間彼らを試した。十日たってみると、彼らの顔色と健康は宮廷の食べ物を受けているどの少年よりも良かった。それ以来、世話係は彼らに支給される肉類と酒を除いて、野菜だけ与えることにした。(ダニエル書1:11-16、新共同訳)
10日くらい肉を食べなくても元気でいられることのみごとな証明だ。ダニエルの実験はランダム化の手順を踏んでいないので、ダニエルたち4人がもともと宮廷の少年よりもたくましかった(実は10日間で4人は弱っていたが、それでも宮廷少年よりは元気だった)かどうかが気になるのだが、「肉を食べても、食べなくても、元気でいられる」という結果はわかりやすい。
ずっと下って1747年には、ジェイムズ・リンドが壊血病の治療法を当てずっぽうに6種類用意したうえ、RCTに近い方法で互いに比較し、偶然にも引き当てていたオレンジとレモンが正解だったことを確かめた。いまではビタミンC不足が壊血病の原因だったことがわかり、壊血病で死ぬ人はいなくなった。
現代もよく言及されるのが1948年の研究で、こちらは肺結核に対する抗生物質ストレプトマイシンの効果をRCTで確かめた。ストレプトマイシンはいまでも結核の治療に重要な役割を持っている。
さて、こんなふうに続けていくと「科学的な手法が周知され普及したことによって医学の進歩も促され、みんなが幸せに…」という物語が見えてくるのだが、それは事実の半分でしかない。残り半分に目を向けてみよう。それは「なぜ医学はRCTを必要としたのか」と問うことだ。
試験は進歩ではない
そもそもRCTが確立するより前から医学はあった。
広告
ヒポクラテスの『古い医術について』では、食事療法を中心としたさまざまな治療法が題名のとおり「古い」時代から次々と新しく考案されてきたことが記されている(なお脱線だが、この本では食事療法の発達の歴史が進化論そのものと言うべき枠組で説明されている点も興味深い)。RCTなどなくても、人は新しい治療法を思いつくものなのだ。
RCTにせよほかの方法にせよ、臨床試験はあくまで何かを試すものだ。何かを作るものではない。臨床試験よりも先に発明がある。試験をいくらやっても発明は増えない。 つまり、RCTなどの試験の技法が「医学の進歩を促した」とする説明は、かなり多くのことを省略している。
有効なものが試験で有効と証明されても、効果が増えるわけではない。試験がなければ勘で使いはじめるだけのことだ。実際、リンドがレモンとオレンジを試そうと考えたのはただの勘だ。
むしろ試験によって無効と証明された治療が廃れることは、副作用を減らすとか、資源を無駄遣いしないという観点で、いいことだろう。同じように、RCTによって無効な治療をはやばやと見限れば、研究の資源を効率的に配分できるかもしれない。
たとえばストレプトマイシンよりも先に、サノクリシンという薬が二重盲検法RCTによって結核治療に試されている。サノクリシンの無効が証明されたことで、研究者たちはいつまでもサノクリシンへの空疎な期待にすがりつくことなく、新しい治療薬を探そうと考えることができた。
考えてみてほしい。ストレプトマイシンがRCTで試されていなければどうなっただろう。以前からの流儀に従えば、ストレプトマイシンを「どうやら効いていそうだ」という雑な観測に基づいて使い続けることはできた。そして、それは正しかった。
photo by iStock
対して、サノクリシンがRCTで試されていなければどうなったか。
次の節で挙げるとおり、結核患者の経過は個人差が大きい。だから、サノクリシンがいかにも効いていそうに見える患者はいたはずだ。そして医師はサノクリシンを使い続けただろう。「著効例が報告されている」と自信満々に。そして、ストレプトマイシンが登場したときには「サノクリシンがあるのだからこんな得体の知れない薬は要らない」と言ったかもしれない。いや、ストレプトマイシンを開発することすら思いつかなかったかもしれない。 歴史上の意義があった試験はどちらだろうか?
こうした意味では、試験は無効を証明したときにこそ真価を発揮する。
学校の勉強にしても、試験問題を解くことで成績が上がるわけではない。できなかった問題を復習することで次にはできるようになる。復習をしないで問題ばかり解いていても進歩はない。試験とはそういうものだ。
ストレプトマイシンにはなぜRCTが必要だったのか
試験の意義は医学の「進歩」に対して間接的なものだ。にもかかわらず、臨床試験の手法は近年著しく発達し、ますます重視されるようになっている。特に、新薬の承認を求める過程ではRCTがほとんど必須とされる。
なぜRCTなのか。なぜこんなに洗練された手法が必要なのか。
たとえば、ストレプトマイシンはなぜRCTで試されなければならなかったのか。この試験を報告した論文にその理由がはっきり書かれている。
肺結核の自然経過は実際のところ非常に多様であって予想がつかず、数人の例で新薬を使ったあとに改善または治癒があったという証拠は、その薬の効果の証明として受け入れられない。
薬を使おうと使うまいと、肺結核は急に悪化することも、そうでもないこともある。だから、薬を使ったあとの人が元気で生活していたとしても、薬の効果が証明されたとはいえない。これは医学統計の教科書でも最初に出てくる単純な論理だ。
そういう条件のもとで薬の効果を判定するには、より洗練された手法が必要だ。それが対照(コントロール)を置くということだ。つまり、薬を使った場合と使わなかった場合を比較する。さらに、その比較が偶然の個人差を見ているわけではないと言えるように、十分な人数を集めて平均を取る。
言い換えれば、ひとりひとりの患者から見て、ストレプトマイシンは効いているのか効いていないのか、自然な個人差と見分けられない。いわば、全体としては微妙にしか効かない。だからRCTが必要だった。
医療関係者が「効かない」という言葉に過敏反応するといけないので強調しておくと、筆者は「ストレプトマイシンは効かない」などとは言っていない。まして「ストレプトマイシンは要らない」とも言っていない。
前述のとおり、ストレプトマイシンは現代にあっても結核治療戦略の中で欠かせない薬だ。しかし「欠かせない」ということは「結核をピタリと治せる」という意味ではない。 我々は結核に対して、せいぜいストレプトマイシンぐらいの薬しか持っていない。何もないよりははるかにマシだが、それでも毎年世界で100万人を超える人が結核で亡くなっている。
劇的な薬に厳格な試験は必要ない
ストレプトマイシンのように、効果が小さい場合にこそ、試験の方法をより厳格にする必要がある。真の効果がノイズに紛れてしまうからだ。
逆に言えば、劇的な効果には厳格な試験など必要ない。
たとえばある人が死んだ人を生き返らせたとする。「対照群が報告されていない」と指摘するべきだろうか。あるいは、「対象者が偏っている」と指摘するべきだろうか。それとも「n=1では何もわからない」と言うべきだろうか。
医学誌『BMJ』は毎年ジョーク論文を載せることで有名なのだが、2003年には「パラシュートが死亡や負傷を防ぐ効果はRCTで証明されていない」という内容の論文を載せた。
例が極端すぎると思うかもしれない。たしかにRCTの意義をかすませてしまうほど劇的に効く新薬にはめったに出会えない。しかし、まれだとしても現実に存在する。
リンドの壊血病の試験は、よく計画された試験ではあったが、オレンジとレモンを食べた患者はたったの2人だ。統計学を覚えはじめた人なら「統計的に有意とは言えない」と言ってしまうかもしれない。リンドを感動させたのは、効果の大きさだ。
最近ではハーボニー®配合錠(一般名レジパスビル・ソホスブビル合剤)がC型肝炎ウイルスを排除する効果を試した試験が、RCTの形式をとってはいるもののすべての対象者に試験薬を飲ませるというもので、「薬がなかった場合」「既存治療のみの場合」という意味での対照群はない。それでもC型肝炎ウイルスが100%近く排除されたという結果はほとんど奇蹟と言いたいほどのもので、既存治療のインターフェロンでは到底及びもつかない。
デュピクセント®(一般名デュピルマブ)もアトピー性皮膚炎に対して驚くほどの試験結果を残している。ほかの薬と直接比較する試験をしなくても、デュピクセントのほうがよく効きそうだとわかる。だからこそ、2週間ぶんの薬価が6万円以上(執筆時点)という破格の扱いを許されているのだろう。
photo by iStock
厳格な試験は小さい効果を見分けるためにある。よく効く薬は断片的な情報からでも「効く」とわかるし、微妙な薬はしっかり調べなければ、何かのノイズを効果と勘違いしてしまうかもしれない。
試験の人数もここで言う「厳格」さに関わっている。人数が多いほど細かい差を見分けられる。だから論文か何かに「大規模臨床試験で判明した」と書いてあったら「非常に細かい違いであった」と読み替えておおむね問題ない。
ストレプトマイシン以後、臨床研究の方法はますます厳密になり、試験規模はますます拡大してきた。研究手法の発達は、すなわち、よく効く薬が出尽くして、細かい効果に注目してやらないと生き残れない薬ばかりが続々と作られるようになったからだともいえる。
製薬産業の転倒したインセンティブ
勘がいい人は「おかしいのではないか」と思っただろう。そう、おかしいのだ。
薬の試験というのは、プロジェクトのバリューが大きそうな場合には低コストでできるが、バリューが小さそうであればあるほど高コストになる。
だとすれば、普通の事業なら「ある程度大きなバリューが見込めなければ手を出さない」と判断されるはずだが、現実には以下で説明するように、微妙な薬のためにすさまじい知恵とコストが投入されている。
ここには「微妙な薬のほうがよく売れる」という現象が関わっている。抗菌薬は細菌を攻撃し、うまくいけば病気を治す。治れば薬はもう要らない。高血圧の薬は血圧を下げるが、薬をやめれば血圧はまた上がる。高血圧が治らないからこそ、高血圧の薬は一生飲む薬になり、ビッグビジネスになる。糖尿病の薬、コレステロールの薬、尿酸値の薬、胃薬、認知症の薬、「血液サラサラ」の薬、骨粗鬆症の薬、めまいの薬、腰痛の薬……どれも治らないからよく売れている。
製薬企業にとってのバリューとは、病気が治ることではなく、薬が売れることだ。だとすれば、売れそうな薬に対して、たとえそれが微妙にしか効かない薬だろうと、コストをかけて効果を証明してやることは、理にかなっている。
早合点して「そうか、製薬企業は患者を商売の種としか考えない金の亡者なのか」と思わないでほしい。
営利企業が売上を追求するのは当たり前のことだ。安定した収益があって事業を継続しなければ、多くの人が必要としている薬を作り続けることもできないし、ハーボニーやデュピクセントのようなすごい薬を開発することもできない。だいいち、製薬産業でお金が回っているということは、それだけ多くの従業員の生活を支えているということでもあるし、景気に貢献しているということでもある。
製薬産業を責めるなら資本主義そのものを責める覚悟で臨んでほしい。
きっと製薬企業としても、治せる薬を作りたいのだろう。そんな薬はめったにできないだけのことだ。問題は微妙な薬を救出するための技術が発達しすぎ、とんでもない副産物を連れてきたことにある。
微妙な薬が造られ続けるワケ
新薬は2年寝かせろ
ひとつ補足しておこう。「厳格な試験は微妙な薬のためにある」という点はしばしば逆方向に誤解されている。相当詳しいはずの人ですら、たとえばこんなことを言ってしまう。
広告
中国からはカレトラ群45人と比較してファビピラビル投与群35人ではウイルス消失時間が短縮され、画像所見の改善も早かったという80人規模の臨床研究が発表されています。この結果だけ見ると「ファビピラビルいいじゃん」という解釈をしてしまいがちですが、症例の数も多くありませんし、患者さんをファビピラビル治療群とカレトラ群とに割り付けるランダム化もしていませんし、どちらの薬剤が使用されているか患者にも主治医にも分からないようにする二重盲検も行われていません。(忽那賢志「アビガン 科学的根拠に基づいた議論を」。強調は引用者)
症例の数が多くなれば、現実にはないも同然のわずかな効果を検出してしまうことはあっても、逆はない。だから症例数が少ないことは「一見差があるように見えるが、実は差がないかもしれない」と考える理由にはならない。
もっと確信に満ちた人もいる。
「対象者の数(n)さえ増やせばどんな些細な違いにも統計的に有意差を出すことができる」ことは前述のとおりであるが、その実例は世の中に出版されている論文のなかではきわめて少数だ。些細な違いに有意差を出すためには、膨大な数の患者を対象にしなくてはならず、膨大な労力とお金が必要となるからだ。ところが逆に、nの数が少ないばかりに、本来は臨床的な意義があるのに、統計的に有意差が得られていない研究論文ならば、星の数ほど存在する。(野村英樹+松倉知晴『臨床医による臨床医のための本当はやさしい臨床統計』、143-144ページ。強調ママ)
この著者たちはフラミンガム研究という有名な研究を知らなかったのかもしれない。ほかにも無駄に膨大なデータを作ってしまったために不毛な論文を量産している研究といえば、NHANESとかNurses’ Health Studyとか、それこそ星の数ほど存在する。
ただし、まれな副作用に注目した場合には、話が逆になる。こんなふうに。
リリー社は自社でおこなった臨床試験――3000名以上の患者を動員した試験――を再考察して自殺行為について調べ、その結果を『英国医師会誌』(BMJ)で発表し、プラセボ投与群に比較して、プロザックのリスクの増加はまったく見られなかったと主張した。しかし、その論文のど真んなかに位置していたのは、次のまぎれもない数値だった――自殺行為に及んだのは、プロザック投与群1765名のうち6名、プラセボ投与群では569名のうち1名。(デイヴィッド・ヒーリー『ファルマゲドン』、330ページ)
リリー社は嘘を言っているわけではない。自殺者の割合は0.33%対0.17%で、2倍違うようにも見えるが「569名のうち1名」がたまたま2名ではなかっただけかもしれないので、統計的に差があるとは言えない。
photo by iStock
しかし、どうも怪しい。薬の副作用で自殺したくなるかどうかは重要だから、まれだとしても、もっとはっきりさせたくなる。どうやって? 人数を増やすのだ。
深刻な副作用はまれにしか現れない。だから、深刻な副作用を検出するには大規模で厳格な試験が必要になる。
この観点からすれば、新薬の承認審査のために行われる試験は、効果を判定することに最適化されているから、まれな副作用を検出するには対象者数がまったく足りない。
実際に、承認され発売されてからしばらくして深刻な副作用が見つかる薬は珍しくない。最近では2019年に、乳癌治療に使われるベージニオ®(一般名アベマシクリブ)による重篤な間質性肺疾患の症例が報告されていて、死亡に至った例もあるとして、製造販売元や厚生労働省から注意喚起がなされた。
一般に使われるようになってからが、副作用を知るための本番なのだ。
そこで、開業医などのあいだでは「新薬は2年寝かせろ」とか「3年寝かせろ」という格言がある。いちはやく新薬を使って論文でも書こうという立場ならともかく、地道に診療を続けるためには新薬のリスクを冒す理由がないのだ。既存の薬で昨日までうまくやれていたのだから。
同じ理由で、筆者の意見としては、新薬を一般向けのメディアが取り上げることは非常に危険であり、伝える人が「たとえ臨床試験では検出できない頻度で致死的な副作用があったとしても、現在報告されている効果が明らかに上回る」と確信しているのでなければ相当の注意を要する。まして、まだ承認もされていない、臨床試験の結果も出ていない新薬候補に期待を高めるなど言語道断だと思う。
とはいえ、薬の意義はまれな副作用よりもまず効果で決まる。よく効く薬なら多少の副作用があっても使うだろうし、効かない薬はどんなに安全でも役に立たない(気休めとして使えるという面もあるのだが、話が複雑になるので省く)。
だから効果の面から言って、臨床試験の規模(サンプルサイズ)は期待する効果にちょうど合うように計算して計画するべきであり、大きすぎる試験はあまりに細かい効果を拾ってしまう。同様に、細かいバイアスを徹底して最小化しようとする試みは、そもそも細かいノイズに紛れてしまうような細かい効果を争うことを自明のこととして前提し、「効果はあったとしても小さい」という観点を遠ざけてしまう。
その結果、厳格な試験は微妙にしか効かない薬を生き延びさせてしまう。(つづく)