大学4年間の統計学が10時間でざっと学べる
倉田博史
KADOKAWA
昨今は統計学がトレンドである。AIやビッグデータの隆盛がその背景にあるのは間違いない。企業の採用でもその手の人材を募集していたり、大学がその名を冠した新学部を創設したり、学生全員を必修科目にするなどしてアピールに余念がない。
本来的に統計とは試薬の開発や気象分析などサイエンスの分野を支える手法だが、いっぽうで人々を説得するロジックとしてしばしば引き合いに出された。戦場の天使ことナイチンゲールは統計の論法を用いて国を説得し、大規模な医療改革を引き出した。かつて多変量解析は心理学の研究で用いられることが多く、日本の大学では文学部心理学科に統計学の講義があったりした。20世紀も終わりごろになって企業が製造過程において生産効率性をはかるスローガンとして統計誤差に注目するようなことがあった。
僕は大学を卒業して数年ほどデータ統計をなりわいにしていた小さな会社に在職していたことがあった。大手企業のマーケティング部署が出してくるデータのアウトソーシング先みたいなところだった。僕自身は大学時代にいっさい統計学の授業をとったことがなく、統計については全く無知であった。それなのになんでこんな会社のこんな仕事にまわされたのかというと単にExcelが使えたからである。そんな時代であった。僕の仕事が、当時の日本のGDP向上にどのくらい貢献したのかはさっぱりわからないが、僕自身がここで統計というものを知ったのは役得ではあったと言えよう。
ただ、そういう在野で身につけた知識の故、その中身はたいへんムラがあるものだった。なにしろ計算そのものはExcelのソフトウェアがしてくれるので我々は出てくるスコア表を見ればよい。出てくるスコアが信頼に足るものかどうかはP値なるものをみて0.05を下回っていればよいとか、そういうのは覚えたが、ではP値というのはいったい何者で、なぜ0.05を下回ればいいのかなんてことは二の次であった。そのくせクラスター分析とかコンジョイント分析とか手数だけはいろいろやってみて重宝されたが、これらの分析の計算過程はブラックボックスで、ただ出力されたスコアが信頼できるかどうかをマニュアルにしたがってチェックするだけだった。
現場でいいかげんに身に着けたそのような統計学にプライドとコンプレックスがあったまま幾星霜、ここにきて統計ブームである。勤め先も立場も変わり、いまの自分の職務は必ずしも統計知識とは関係ないのだがなにしろ世間が追い風なので何かと会社はデータデータ言ってくる。実際に、膨大なビッグデータをぐるぐるまわして脚光を浴びる若手社員なんてのも出てくる。
そうなってくると「俺だって若いころは統計やってたんだぜ」と言いたくなる欲求がムズムズわくが、これは老害以外のなにものでもない。ただ、ロートルのレッテルを貼られたままなのも癪である。
ということで、統計検定を受検してみることにした。統計検定は1級・準1級・2級・3級・4級とある。統計の知識を問う資格については他にも姉妹的な検定がいくつかあるが、もっともスタンダードなのはこの統計検定だ。英検みたいなものである。
その統計検定の中でも特に2級が目安とされていて、これをとっておくといちおう「この人は統計ができる」と市場価値として認められるとされる。
というわけで統計検定2級にチャレンジしたのである。「昔やってたんだぜ」はウザいだけだが、「2級持ってるよ」ならば、もう少し人としてなめられなくて済むかもしれんなんて思ったのである。去年の夏頃の話だ。
そしたら、ものの見事に玉砕した。もちろんぶっつけではなくて過去問なんかもぱらぱらみたのだが、合格点ラインが60点というのでまあなんとかなるだろうと油断したら、もう全然届いていないのである。
というより、改めて考えると、齢50にもなってこの手のテストは本当に久しぶりなのである。これまでもいくつか資格試験や検定みたいなのものを受けたことはあったが、それらは基本的には「暗記」であった。まれに計算問題を課すものもあったがそれとて全出題のごく一部であって、なんならその問題は捨ててしまっても他で点がとれれば合格に影響しないものであった。
しかし、統計なのだから当たり前なのだが、出題の大半が計算問題なのである。そんなテストを1時間半にわたって受ける。いまから30年以上前、大学受験以来なのではないか。その30年の間に、当方の脳みそは劣化し、集中力は続かず、出題文を読む目(試験会場ではパソコン画面で行う)は老眼でおぼつかず・・・
「不合格」の画面がパソコン上にパンと出たときは絶望的な気分になったものの、それから心を入れ替えて本気で3か月ほど勉強してみた。過去問集や何冊かの参考書を相手にウンウンとやって年末に再受験したら、今度はギリギリの点数で合格した。これだけ真面目に一生懸命やったのだからもう少し点数はいくかと思ったのだが、本当にギリギリで、あと1問か2問ほど間違っていたら不合格というレベルだった。
勉強の最後のほうは、統計知識を得るというよりは単に試験対策みたいになってしまい、このパターンの問題が出たらこのパターンの解答みたいな強引なスタイルになってしまっていた。そこで合格後に改めて手にしたのが本書なのである。
ともあれ統計検定2級は合格したし、改めてこれを読めばもう一度情報も整理できて人前で「自分は統計ができる」と言ってしまって、なにか返り討ち的な質問をされてもまあ大丈夫かなと思ったのだが、意外にも本書を読み解くことは苦難だった。さんざん検定対策をして、そのうえで本書を読んだ上の感想だが、「10時間でざっとわかる」のは無理なんじゃないのだろうか。もちろん各章題である「分散」「t検定」「独立性の検定」「標準化」などがなんであるかはわかる。というか、それは本書を読む前から勉強していたのだから知っている。しかし、そこに書かれている解説がけっこう晦渋なのだ。自分が勉強したものはこれだったっけ、みたいな戸惑いを感じる。これ、統計学初見の人がよんでわかるのかなあ、などと思ってしまうのである。
はやりの学問だけあって、書店にいくと「文系でもわかる統計」「中学生の知識でわかる統計」など、お手軽にマスターできそうな統計本が揃っている。暗記物がメインの資格検定はそういうショートカットもありそうだけど、本来が数式と厳密なロジックで成立している統計学はあまり近道がないのではないかと思う。
と書くと、なんだか教訓と自慢みたいな繰り言で終始してしまうので、なんでそうなってしまうのかというのをさらに考えてみたい。今回のブログ、かなり長文になってしまった。
統計学について学ぶのに一番いいのは、教師役の人と問答しながら双方向で確認しながら進めていくことではないかと、これは独学で参考書を読んだり問題集と解きながらずっと思っていたことではあった。扱うデータもビジネス現場などで扱っている実際のものであればなおよい。というのは結局のところ、統計学の学びの対象は、実際のデータと、どのような論理で成り立っているかという話と、そしてそれをもとにした数式がすべてだからである。
だけれど、これを一方通行の文章だけで表現して読み手に伝える、というのは参考書の書き手にとってはかなり厄介な仕事なのではないかと思う。統計学の先生なんてのは、想像するに文系的な言語ボキャブラリーが豊富とも思えないし、数字と数式で成立する世界の解説をいちいち日本語の文章で説明するのは外国語の翻訳と同じで隔靴掻痒であろう。厳密に定義しなければならないものほどコトバがもつ冗長性が障害になる。統計学には「棄却する」とか「独立の元では」とか「信頼空間が」とか「自由度」とか変なコトバがいっぱい出てくるが、これも数学の世界によくある定義の厳密性を追求しようとしてこんなへんな日本語になる。業界内では通用しても部外者にはその意味するところはなかなかピンとこない。本書は「10時間でざっとわかる」シリーズの一環で、経済学とか社会学とかいろいろ出ている中の1冊だが、統計学でこの制約を要求された著者も気の毒ではある。
つまり、統計学(おそらく数学全般に言える話だろうが)を解説書形式で説明するのは、書き手としても高度な技術を要するし、読み手がそれに対してこの文章はどういう意味か、このコトバは何かの質問も確認もできないという一方的読書体制で学ぶのはなかなか効率が悪いのだ。変に四角張った意味がはかりにくい文章と、わかりやすいけど書き手によってその説明の仕方がぜんぜん違ってしまう解説が混在するのが統計学の参考書なのである。要するに参考書だけの独学勉強方法はムリゲーと言ってもよい。
というわけで、僕がやった勉強スタイルでは、年齢のことは棚に上げるとして、どうもここが限界な気がする。当初はあわよくば準1級でもねらうかとか思ったものだったが絶対ムリだ。高校生の我が娘には、大学に入ったら統計学の授業はとったほうがいいぞ、最前列に座って受けて質問は積極的にした方がいいぞ、と言う。いつもはうるさいなという顔しかしない娘だが、このときばかりは素直にそうだねとうなづいたのは、休日も悪戦苦闘しながら勉強したのに一度目は不合格、二度目になんとかぎりぎり合格した父親の後ろ姿を見たからではないか、と思うと、今回のチャレンジの最大の収穫はこれだったかとも思うのである。
増補普及版 日本の最終講義
鈴木大拙 宇野弘蔵 梅棹忠夫 江藤淳 他
KADOKAWA
ここのところしばらく、読書と記録付け意欲が減退中で、当ブログも停滞している。
まったく読書を絶やしているわけではなく、つねになんらかの本が読みかけであるにはあるが、読むスピードや集中力に欠けているし、何よりも読後に感想がまとまらない。断片的なエピソードとしては覚えていても、本の全体像が頭に入っていないといったほうがよい。
要するに脳が老化している、ということにつきる。40代を境に急速に転げ落ちているかのようだ。このまま自分は認知症になっていくのではないか、という気にさせられる。
しかし、そんな危うい脳みそにおいても、この本は読み甲斐があった。脳みそにじっくりと染み渡る。名高い研究者の大学での最終講義を集めたものである。古くは小泉八雲や鈴木大拙から始まり、最近だと阿部謹也や日野原重明のものがおさまっている。人文から科学まで網羅されている。増補普及版とはいってもなかなか分厚くて778ページあり、モビリティにきついものがあるが、それでもカバンにいれてちょいちょい読んできた。
冒頭を飾るのは鈴木大拙だ。禅問答(公案)の重厚な解説にまず面食らうがそれでも禅の境地とは何かの一端を知ることはできる。何かに解釈や存在意義や確認を委ねようとする限り(つまり問いかけて答えを期待するうちは)、まだまだ未熟なのである。すなわち問答しているうちは絶対に禅の境地には到達しない、という鈴木大拙の語り口にうなされる。
さらにいくつか個人的に感銘を受けたものをひろってみると、まず猪木正道の独裁論。独裁の定義と特徴--独裁の本来とは、従来のガバナンスでは立ち行かなくなったときに臨時に許される非常事態的ガバナンスであり、期限付である限り有効なのだが、人間はその地位を得ると濫用したくなる。そしてその人(国)は孤立し、最終的には周囲によって崩壊させられるという話ーーからは、プーチン大統領の成り行きのむべなるかなを知る思いがする。
河合隼雄のコンステレーション論では、心療や心の相談において、相手の発言を額面通りに受けとるのではなく、何が彼をこんな発言させているのかに思いをはせ、こちらからは解決策を言わず、本人の中にあるであろう文脈や因果が表面に出てきてそれを本人が気づくようにすることに徹する旨が書かれている。今日の傾聴メソッドの基本であるが、こんなところから派生してきているのかと思う。
江藤淳の最終講義はエンターテイメントとしても面白い。題して「SFCと漱石と私」。慶應義塾大学湘南藤沢キャンパスに教授として招かれたいきさつと、ライフワークとなった漱石の研究と、自分自身の矜持みたいなものを、実に凛と語っているのだが、非常に迫力と緩急がある語り口で講談みたいだ。最後に拍手が鳴りやまなかったとあるが、さぞかし現場の興奮はすごかったに違いないと思う。僕は生前の江藤淳の講演をいちど聞いたことがあるのだが、古めかしいコトバ使いにもかかわらず、ちっとも弛緩しないその組み立てと語りのスキルに舌を巻いたことがある。
しかし、この分厚い本で最も琴線に響いたのは、日野原重明が聖路加看護大学で行った最終講義である。ここでは看護師へのたむけが語られる。よく比較される医者と看護師について、世間は医者のほうが看護師よりも偉いように語られるがそんなことはない。医者はサイエンスで看護師はケア。しかし我々が見なければいけないのは人間であって、人間の相手をするというのはサイエンスではなくてケアである。とくに終末医療。この患者はどうしても助からないとなったとき、医者はもう何もすることはできない。サイエンスの限界である。しかし、看護師の仕事はここから始まる。その患者の人生を全うさせるためのケアは、医者にはできず、看護師に託された特権である。この話は非常に胸をうつ。昨今、ブルシットジョブなどで「ケア」という言葉は再注目されているが、その神髄がこの日野原重明の短い最終講義に凝縮されているといってもよい。
象牙の塔とか、アカデミズムの閉鎖性と有用性などがよくいわれる研究界だが、彼らの信念と情熱をみると、人間や社会や世界の真理を彼らなりの角度でいかに照射し、そして多くの人にその光明を与えていくということで彼らの仕事は決して閉じたものではないことをしみじみと感じる。プロフェッショナルとしての矜持とはなにかを、本書の何人もが語っている。
全卓樹
興味深かったのは、多数決で物事が決まるまでの妙を数理シミュレーションで解き明かしたガラム理論の話だ。「最初17%の固定票があって残りの人がみんな浮動票ならば、いずれすべてがその票に集まる」というものである。これは面白いと同時に、どこか薄気味悪いところがある。
つまり、世の中が浮ついていたり、へんに落ち着かないときに少数の固定観念を持つ集団がいると、次第にその気運に周囲が巻き込まれ、やがて世間の大多数がその観念に染まるということをシミュレーションで明かした理論である。著者の所属先である高知工科大学によりつっこんだ説明のサイトがあった。
リンク先のサイトはなにやら専門的だが、本書で説明されている限りのシミュレーションのロジックは決して難しくない。なるほど確かにそうだと思う。
しかし、これが意味するところは非常に示唆的だ。というのは現実の社会でそういうのにいくつも心当たりがあるからだ。太平洋戦争に突入するときの世論がそうだし、少数政党のひとつだったナチスドイツが最後に独裁政権まで至ってしまった経緯にもこういうところがある。「それでも日本人は戦争を選んだ」の加藤陽子は「国民の正当な要求を実現しうるシステムが機能不全に陥ると、国民に、本来見てはならない夢を疑似的に見せることで国民の支持を獲得しようとする政治勢力が現れる」と指摘した。世論研究者の佐藤卓己は、1956年の東京オリンピックへの支持率が当初はほんの少ししかなかったのに、何度も新聞社が世論調査を繰り返してその結果を記事にしていくで次第に支持層が拡大していったことを指摘している。
そして、今日の政権の暴走を許しているところの根っこにもこれはあったのではないかと思うし、コロナ禍で見られたデマやパニックの力学にも関係がありそうだ。本当に怖いのはガチガチのの固定層より、浮動層だ。おそるべきことに手続き的には民主主義以外の何物でもないのだ。
科学技術の進展が倫理面と接触したときの危うさは、ユヴァル・ハラリなんかもしばしば指摘している。近年やたらに思考実験として出される「トロッコ問題」なんかは、自動車の自動運転など、社会装置をAIなどのテクノロジーに委ねる際にしばしば引き合いに出される。
本書では、MITメディア研究所が行った、倫理感覚の国ごとの差異をクラスター分析で見せた研究の紹介が面白い。
これは、自動車が歩行者をはねる事故を想定し、運転者や歩行者の属性や状況で誰を助けるべきかを判定するというのを各国の人にアンケートで答えてもらい、国ごとの傾向の違いをみるというものだ。分析した結果、世界の国は倫理パターンとして「西洋型」「東洋型」「南洋型」の3クラスターにわかれるという。この言い方は便宜的で、フランスが「南洋型」になったり、ブラジルが「西洋型」になったりもする。日本はもちろん「東洋型」に属するが、もちろん東洋型の中でもいくつか枝分かれがあって、日本はマカオやカンボジアと倫理パターンが近いのだそうだ。これもこちらのサイトでより詳細に紹介されている。ちなみに「日本は助かる命の数を重視しない(つまり、数よりも誰を助けるかという「質」を重視する)ほか、歩行者を助ける傾向が世界で最も強い。逆に、生存者の数を重視するのはフランスで、歩行者よりクルマに乗っている人を守ろうとするのは中国とエストニア」なのだそうである。
アンケートに答えてもらって回答者をクラスター分析で分類する、という手法は社会調査統計手法としてはスタンダードである。この手があったかと思う次第だが、同一のアンケートを全世界でやった力技がこれの勝因だろう。
そうすると気になることがある。国ごとの分類ならばこのような社会学の興味範囲で済みそうだが、国ごとでできるのならば個人単位でも分類できるはずで、そうなってくると不気味な実用が想像できる。本書でも警告気味な予言がしてあるが、個人個人の倫理パターンを全部解析すると、その人は結婚相手としてふさわしいか、就職採用して信用たる人間か、お金を貸して大丈夫な人間かなどがすべてシミュレーションできてしまうのである。中国なんかは既に人間信用スコアというのがあって、その人の経済力や賞罰歴をもとにデータベース化されていて、融資や保険の判断に使われている。倫理パターンから分析されるとなるとこれは全人格を把握されることにほぼ等しい。
で、さきほど「同一のアンケートを全世界でやる力技がこれの勝因」と書いてみたが、よくよく考えると、Googleあたりがアルゴリズムをつかって瞬時に分析できそうではないか。技術的にはGoogleはひとりひとりの倫理パターンを自動的におさえられるはずである。20世紀の優生思想は否定されたものの、とんでもないパンドラの箱が見えないところで着々とデータを溜めているとなると急激に寒気がしてくる。
アカデミズム上の思考実験や数値シミュレーションは、夢はあるけど悪夢とも裏表だ。銀河の片隅で科学夜話。眠りに誘うよりは、哲学的な思索に引きずり込まれる小話群である。