ノーベル賞で注目「因果推論」登場で起きた大変化
東洋経済 onlain より 220409
塩崎 潤一:野村総合研究所 データサイエンスラボ長,
広瀬 安彦:野村総合研究所 データ サイエンスラボ 上級研究員
ノーベル賞受賞につながった「因果推論」や、ビル・ゲイツがビジネスに活用した「ベイズ・テクノロジー」など、データサイエンスの手法はビジネスでも広く活用されています。
ノーベル賞受賞につながった「因果推論」や、ビル・ゲイツがビジネスに活用した「ベイズ・テクノロジー」など、データサイエンスの手法はビジネスでも広く活用されています。
『データサイエンティスト入門』(野村総合研究所・データサイエンスラボ著)では、そうした事例を数多く紹介しています。本稿では、同書から一部を抜粋・再構成しお届けします。
⚫︎ノーベル賞で注目の「因果推論」
ビッグデータの時代が到来し、データサイエンスの様々な理論がビジネスに活用されています。その代表例が「因果推論」です。
因果推論とは、入力データ(インプット)と出力データ(アウトプット)から、その因果関係(原因とそれによって生じる結果との関係)を推定していく考え方です。因果推論を用いた政策効果の測定がノーベル経済学賞を受賞したこともあり、近年注目されている理論です。
統計学では複数のデータの“相関関係”を分析する手法が中心でした。検定や回帰などの手法は、データの関係がどれぐらい強いのかを表す分析手法です。しかし、これらの手法では、“相関”があることはわかりますが、“因果”がわかりません。そのため、因果関係を推計する「因果推論」が注目されるようになりました。
因果推論のビジネス応用の例としては、マーケティング分野への応用があります。広告に接触することで商品(例えばエアコンやアイスなど)の購入率が上がったとしましょう。この場合でも、商品を購入したという「結果」が、広告に接触したという「原因」だけで、すべて説明することはできません。広告に接触したことよりも、店頭で安売りしていたことが影響したかもしれません。
因果推論では、実際に広告に接触した人が「もし、接触しなかったら」どうなっていたのかを分析することで、因果関係を推計します。
このように他分野におけるデータサイエンスの理論や、純粋数学の分野における研究成果がビジネスの分野にも活用されるようになりました。また、これらの理論を応用するためのデータ分析ツールも整備されてきました。誰もがデータサイエンティストとして、既存の理論をビジネスに活用できるようになりつつあるのです。
データサイエンスが、ビジネスにつながる、すなわち、企業の収益に直結するようになったことで、データサイエンティストへの注目が高まりました。
データサイエンスを導入することで、ビジネスを成功に導いた企業の代表が、Google、Amazon、AppleなどのIT企業です。インターネット上のビッグデータを分析する仕組みを整えて、検索やリコメンドの最適化を図り、より多くの売上を獲得しました。また、これらの企業に先んじてマイクロソフト社もデータサイエンスで成功した企業の1つです。
ビル・ゲイツは「マイクロソフトが競争優位にたっているのは“ベイズ・テクノロジー”のおかげ」と言っています。ベイズ・テクノロジーとは、「ベイズ統計」の考え方をビジネスに応用することを指しています。ベイズ統計とは、トーマス・ベイズにより提唱された「ベイズの定理」を基本的な考え方とする統計学で、新しいデータを取り込みながら推定や予測の精度を高めていくという特徴があります。
⚫︎迷惑メールの判断にも応用
ベイズ統計を応用した事例の代表例としては、迷惑メールの推定があります。
【迷惑メールの推定の問題】
※メールの本文中に「無料」という表記があったら迷惑メールだと判断できるか?
・得られたデータ
迷惑メールに識別されたメールの中で「無料」という表記が出現する割合:30%
すべてのメールの中で「無料」という表記が出現する割合:10%
感覚的には、無料という言葉が全メールに占める割合と比べて、迷惑メールの場合は、出現割合が高いため影響はありそうだと感じます。しかし、無料という言葉があれば、すべて迷惑メールと判断するのは言い過ぎのように思われます。
過去の経験から、全メールの中で、迷惑メールが占める割合は20%ぐらいだと仮定すると、今回のデータから、以下のベン図が整理されます。わかりやすくするために、全体のメールの数を100通として表記しています。
迷惑メールの合計は100通の20%で20通、うち30%で無料表記があるので重なり部分は6通。全メールで無料表記がある割合は10%(10通)で、うち迷惑メールの6通を除いた4通が通常メールで無料表記があります。迷惑メールではなく、かつ、無料表記もないメールは76通です。
迷惑メールのうち無料表記がある割合は30%でしたが、同じデータでも見方を変えると、無料表記があるメールのうち迷惑メールである割合は60%となります。重なりの部分(6通)を、迷惑メール側から評価するか、無料表記あり側から評価するかの違いです。60%であれば、「無料という表記がある場合は、迷惑メールの可能性が高いと」判断しても良さそうです。
「ベイズの定理」とは、このベン図の重なりの部分の関係を数式で表したもので、当たり前のことを言っているだけで難しくはありません。見方を変えるという点が「ベイズの定理」のポイントで、データを解釈する際の誤解を排除することができます。
同じデータを用いても、違う視点でみることで、結果に及ぼす要因を正しく評価できるのがポイントです。
メールソフトなどで実際に行われている迷惑メール判定では、「無料」という言葉だけではなく、「プレゼント」や「キャンペーン」などの他の言葉を含んだ場合や、2つ以上の言葉が含まれる場合など、様々な条件で迷惑メールになる割合を計算し、迷惑メールを別のフォルダに振り分けるなどの判断をしています。
⚫︎自動翻訳などにも応用
「ベイズの定理」により、正しく要因を評価することができるようになるため、ビジネスにおける活用が進んでいます。迷惑メールのフィルタリング以外にも、記事のカテゴリ分類、自動翻訳、医療分野における検査やワクチン接種の効果測定などの分野で応用されています。
単純な定理ですが、巨大企業の成功を支えたと言わしめるほど大きな影響があるのです。データサイエンスは、データの見方・捉え方を変えるだけでも十分な意味を持ちます。マイクロソフト社はベイズ統計を活用できる人(“ベイジアン”と呼ばれている)を積極的に採用して、他社との差別化を図ったようです。データを多面的、客観的に取り扱うことができるデータサイエンティストが求められているのです。
データサイエンスがビジネスで大きな影響を及ぼすようになった理由としては「技術の進歩」もあげられます。
まずはパソコンの能力の進歩です。パソコンの処理能力は急激に高まっており、簡単なデータ分析であれば、パソコンとエクセルなどの表計算ソフトで対応できるようになりました。“機械学習に適したパソコン”という名目で販売されているものもあり、演算処理の多い機械学習ですらパソコンで対応可能です。
このように他分野におけるデータサイエンスの理論や、純粋数学の分野における研究成果がビジネスの分野にも活用されるようになりました。また、これらの理論を応用するためのデータ分析ツールも整備されてきました。誰もがデータサイエンティストとして、既存の理論をビジネスに活用できるようになりつつあるのです。
データサイエンスが、ビジネスにつながる、すなわち、企業の収益に直結するようになったことで、データサイエンティストへの注目が高まりました。
データサイエンスを導入することで、ビジネスを成功に導いた企業の代表が、Google、Amazon、AppleなどのIT企業です。インターネット上のビッグデータを分析する仕組みを整えて、検索やリコメンドの最適化を図り、より多くの売上を獲得しました。また、これらの企業に先んじてマイクロソフト社もデータサイエンスで成功した企業の1つです。
ビル・ゲイツは「マイクロソフトが競争優位にたっているのは“ベイズ・テクノロジー”のおかげ」と言っています。ベイズ・テクノロジーとは、「ベイズ統計」の考え方をビジネスに応用することを指しています。ベイズ統計とは、トーマス・ベイズにより提唱された「ベイズの定理」を基本的な考え方とする統計学で、新しいデータを取り込みながら推定や予測の精度を高めていくという特徴があります。
⚫︎迷惑メールの判断にも応用
ベイズ統計を応用した事例の代表例としては、迷惑メールの推定があります。
【迷惑メールの推定の問題】
※メールの本文中に「無料」という表記があったら迷惑メールだと判断できるか?
・得られたデータ
迷惑メールに識別されたメールの中で「無料」という表記が出現する割合:30%
すべてのメールの中で「無料」という表記が出現する割合:10%
感覚的には、無料という言葉が全メールに占める割合と比べて、迷惑メールの場合は、出現割合が高いため影響はありそうだと感じます。しかし、無料という言葉があれば、すべて迷惑メールと判断するのは言い過ぎのように思われます。
過去の経験から、全メールの中で、迷惑メールが占める割合は20%ぐらいだと仮定すると、今回のデータから、以下のベン図が整理されます。わかりやすくするために、全体のメールの数を100通として表記しています。
迷惑メールの合計は100通の20%で20通、うち30%で無料表記があるので重なり部分は6通。全メールで無料表記がある割合は10%(10通)で、うち迷惑メールの6通を除いた4通が通常メールで無料表記があります。迷惑メールではなく、かつ、無料表記もないメールは76通です。
迷惑メールのうち無料表記がある割合は30%でしたが、同じデータでも見方を変えると、無料表記があるメールのうち迷惑メールである割合は60%となります。重なりの部分(6通)を、迷惑メール側から評価するか、無料表記あり側から評価するかの違いです。60%であれば、「無料という表記がある場合は、迷惑メールの可能性が高いと」判断しても良さそうです。
「ベイズの定理」とは、このベン図の重なりの部分の関係を数式で表したもので、当たり前のことを言っているだけで難しくはありません。見方を変えるという点が「ベイズの定理」のポイントで、データを解釈する際の誤解を排除することができます。
同じデータを用いても、違う視点でみることで、結果に及ぼす要因を正しく評価できるのがポイントです。
メールソフトなどで実際に行われている迷惑メール判定では、「無料」という言葉だけではなく、「プレゼント」や「キャンペーン」などの他の言葉を含んだ場合や、2つ以上の言葉が含まれる場合など、様々な条件で迷惑メールになる割合を計算し、迷惑メールを別のフォルダに振り分けるなどの判断をしています。
⚫︎自動翻訳などにも応用
「ベイズの定理」により、正しく要因を評価することができるようになるため、ビジネスにおける活用が進んでいます。迷惑メールのフィルタリング以外にも、記事のカテゴリ分類、自動翻訳、医療分野における検査やワクチン接種の効果測定などの分野で応用されています。
単純な定理ですが、巨大企業の成功を支えたと言わしめるほど大きな影響があるのです。データサイエンスは、データの見方・捉え方を変えるだけでも十分な意味を持ちます。マイクロソフト社はベイズ統計を活用できる人(“ベイジアン”と呼ばれている)を積極的に採用して、他社との差別化を図ったようです。データを多面的、客観的に取り扱うことができるデータサイエンティストが求められているのです。
データサイエンスがビジネスで大きな影響を及ぼすようになった理由としては「技術の進歩」もあげられます。
まずはパソコンの能力の進歩です。パソコンの処理能力は急激に高まっており、簡単なデータ分析であれば、パソコンとエクセルなどの表計算ソフトで対応できるようになりました。“機械学習に適したパソコン”という名目で販売されているものもあり、演算処理の多い機械学習ですらパソコンで対応可能です。
しかも、10万~20万円程度の予算でも、機械学習に対応できるパソコンもあり、容量の大きな画像データを扱わなければ、低予算でもデータサイエンスが実装できるようになりました。
次にクラウド(クラウドサービス、クラウドコンピューティングともいう)の進化もデータサイエンスに大きく貢献しました。クラウドとは、インターネットを経由したコンピュータの利用です。必要な時に必要なレベルのコンピュータを利用できます。
次にクラウド(クラウドサービス、クラウドコンピューティングともいう)の進化もデータサイエンスに大きく貢献しました。クラウドとは、インターネットを経由したコンピュータの利用です。必要な時に必要なレベルのコンピュータを利用できます。
データベース、ストレージ(データの保存領域)、アプリケーションなども利用できるため、多額の初期投資を避けることができます。Amazonの「Amazon Web Services(AWS)」やGoogleの「Google Cloud Platform」が有名です。従量課金制ですが、一般の人でも割安で利用できるサービスもあり、個人でデータサイエンスを実行する人の多くが利用しています。
⚫︎3つ目の進化は?
3つ目はアルゴリズムの進化です。「ベイズ統計」のように古くからある概念が、近年のデータサイエンスに応用されることでビジネスに大きく貢献する例もあります。
一方で,「ディープラーニング(深層学習)」に代表される新しいアルゴリズムが次から次へと発明されていることが、データサイエンスのビジネス活用を推進しました。新しいアルゴリズムは研究者の間で共有され、自分たちが保有しているデータの分析に適用されます。
⚫︎3つ目の進化は?
3つ目はアルゴリズムの進化です。「ベイズ統計」のように古くからある概念が、近年のデータサイエンスに応用されることでビジネスに大きく貢献する例もあります。
一方で,「ディープラーニング(深層学習)」に代表される新しいアルゴリズムが次から次へと発明されていることが、データサイエンスのビジネス活用を推進しました。新しいアルゴリズムは研究者の間で共有され、自分たちが保有しているデータの分析に適用されます。
解析や予測などの数理モデルに活用されて、より精度の高いモデルを構築することができ、データサイエンスがビジネスに貢献できるようになりました。
これらのアルゴリズムは「ライブラリ」として広く共有されます。クラウド上で公開されたり、Pythonなどのプログラム言語から呼び出せるような形で、誰もが利用できるようになっているものも多くあります。
このように新しいアルゴリズムや分析手法がグローバルに共有されることにより、より研究が進み、日々進化し続けています。コンピュータなどのハードウエアだけではなく、アルゴリズムというソフトウエアも高速で進化して、データサイエンスのビジネス活用を後押ししています。