日経情報ストラテジーの2014年5月号の特集1、2が典型的な例だけど、
・特集1 高めよう!データリテラシー 普通の社員が分析で成果出す7つの決め技
・特集2 博士データサイエンティストの実像
おいおい、ビッグデータ解析は、「普通の社員」がやるのかよ、「博士データサイエンティスト」がやるのかよ?
この混乱は、データ解析に2つの側面があることを無視しているから、混乱している。
仮説は、2つの段階を経て成立する
仮説構築:アブダクションにより、仮説を構築する。観察が主体
仮説検証:実験的ないしは統計的に仮説の正しさを確認する
このことを、川喜多二郎氏の「発想法」(中公文庫)私の持っている本では22ページに
「研究という名の仕事」で図示している(川喜多氏の「発想法」=「仮説構築」)
仮説構築部分は野外観察で、検証部分が実験科学となっている。
ビッグデータも同じで、「仮説構築」部分と「仮説検証」部分に分かれる。
データに基づき(グラウンデット・おん・データ?っていうといみちがって来るけど ^^;)
こういう関係があるんでないか?という仮説を構築する部分と、
そのできた仮説を正しいかどうか検証する部分。
前者の仮説を構築する部分は、BIレベルでできることなので、全社員がやったほうがよい分野である。
で、これだけでも成果はでるわけだ。仮説を作ることが大事で、それが正しいかどうかは・・・
やってみれば、ある程度わかるから・・・実践あるのみ!!っていうのでも、もちろんOK
ただ、後者になってくると、仮説のモデルを作って検証することになる。
そうすると、たとえば、表面的な変数の間の関連を言うだけなら、
回帰分析なので、そんなに難しくないけど、
そこに内部変数が出てくるとなると、共分散構造分析を使うことになるので、
これは、博士データサイエンティストを使うことになる(経営・心理だったら修士でもやると思うけどね)
ここで、ふと、面白いことを思い出す。
ビッグデータ前はどうだったか?
博士データサイエンティストはいらなかったし、
データに基づき、マーケティングとかしていたのに・・・
実は、ビッグデータ前と、ビッグデータ後で解析方法が違うのだ・・・
ビッグデータ前の解析手法は、最高峰は、因子分析だった。
仮説構築に探索的因子分析(=ふつうの因子分析)を使い
仮説検証に確認的(確証的)因子分析を使える
・・・が、仮説検証は実際には、売ってみて確認したほうが多かったか・・・
実は、この手法がビッグデータ時代には使えない。
(探索的)因子分析は、ミドルデータ?どまりで、
実際IDつきPOSデータ数約万件をがーん!と因子分析かけると、
寄与度が相当低い因子が、いっぱいでてきてしまう。
・・・なんじゃこりゃ?状態・・・
なんで、一発クラスタ分析かけたり、フィルタリングしたりするんだけど、
それができるのは、ミドルデータどまり。
ビッグデータになると、誤差が大きくなって、仮説が誤差に埋もれてしまう。
結果として、何も考えないで解析をかけると
・・・コンビニの商圏は、近隣数百メートルであることがわかった!
・・・サンダルは夏に売れ、ブーツが冬に売れる
という当たり前の結果しか出てこない。
そこで、ビッグデータ時代は、2つを分けて、あらたな手法が必要になってくる。
サンダルが夏に売れることは知っているけど、
冬に売れるケースはないのか?
とExcelで絞り込んで、対象データをみる。
これは、レアケースなので、ビッグにデータを集めないと、該当データなしになってしまう。
そうすると、ある建物の近くで売れ、そこに入るには、サンダルがいるから・・・
という仮説が見つかるかもしれない。
まあ、これで、売りに走ってもいいわけだが、
これを数値的に裏付けようとしたら、博士データサイエンティストが必要で、
彼らが、このモデルをデータから検証して(検定して)有意差を出してくるわけだ・・・
ということで、
仮説構築:BIレベルでできる、ExcelでOK、みんなやるべき
仮説検証:統計知識が必要、専門的
という話になる。
多くの会社では、仮説構築が重要で、仮説検証の統計知識はあってもいいけど、
なくても実践で結果をみることでカバーできる(従来のビジネスで仮説検証といっているのは、これ)
このへんが混じってしまうと、なんだなんだ?となってしまう。
・特集1 高めよう!データリテラシー 普通の社員が分析で成果出す7つの決め技
・特集2 博士データサイエンティストの実像
おいおい、ビッグデータ解析は、「普通の社員」がやるのかよ、「博士データサイエンティスト」がやるのかよ?
この混乱は、データ解析に2つの側面があることを無視しているから、混乱している。
仮説は、2つの段階を経て成立する
仮説構築:アブダクションにより、仮説を構築する。観察が主体
仮説検証:実験的ないしは統計的に仮説の正しさを確認する
このことを、川喜多二郎氏の「発想法」(中公文庫)私の持っている本では22ページに
「研究という名の仕事」で図示している(川喜多氏の「発想法」=「仮説構築」)
仮説構築部分は野外観察で、検証部分が実験科学となっている。
ビッグデータも同じで、「仮説構築」部分と「仮説検証」部分に分かれる。
データに基づき(グラウンデット・おん・データ?っていうといみちがって来るけど ^^;)
こういう関係があるんでないか?という仮説を構築する部分と、
そのできた仮説を正しいかどうか検証する部分。
前者の仮説を構築する部分は、BIレベルでできることなので、全社員がやったほうがよい分野である。
で、これだけでも成果はでるわけだ。仮説を作ることが大事で、それが正しいかどうかは・・・
やってみれば、ある程度わかるから・・・実践あるのみ!!っていうのでも、もちろんOK
ただ、後者になってくると、仮説のモデルを作って検証することになる。
そうすると、たとえば、表面的な変数の間の関連を言うだけなら、
回帰分析なので、そんなに難しくないけど、
そこに内部変数が出てくるとなると、共分散構造分析を使うことになるので、
これは、博士データサイエンティストを使うことになる(経営・心理だったら修士でもやると思うけどね)
ここで、ふと、面白いことを思い出す。
ビッグデータ前はどうだったか?
博士データサイエンティストはいらなかったし、
データに基づき、マーケティングとかしていたのに・・・
実は、ビッグデータ前と、ビッグデータ後で解析方法が違うのだ・・・
ビッグデータ前の解析手法は、最高峰は、因子分析だった。
仮説構築に探索的因子分析(=ふつうの因子分析)を使い
仮説検証に確認的(確証的)因子分析を使える
・・・が、仮説検証は実際には、売ってみて確認したほうが多かったか・・・
実は、この手法がビッグデータ時代には使えない。
(探索的)因子分析は、ミドルデータ?どまりで、
実際IDつきPOSデータ数約万件をがーん!と因子分析かけると、
寄与度が相当低い因子が、いっぱいでてきてしまう。
・・・なんじゃこりゃ?状態・・・
なんで、一発クラスタ分析かけたり、フィルタリングしたりするんだけど、
それができるのは、ミドルデータどまり。
ビッグデータになると、誤差が大きくなって、仮説が誤差に埋もれてしまう。
結果として、何も考えないで解析をかけると
・・・コンビニの商圏は、近隣数百メートルであることがわかった!
・・・サンダルは夏に売れ、ブーツが冬に売れる
という当たり前の結果しか出てこない。
そこで、ビッグデータ時代は、2つを分けて、あらたな手法が必要になってくる。
サンダルが夏に売れることは知っているけど、
冬に売れるケースはないのか?
とExcelで絞り込んで、対象データをみる。
これは、レアケースなので、ビッグにデータを集めないと、該当データなしになってしまう。
そうすると、ある建物の近くで売れ、そこに入るには、サンダルがいるから・・・
という仮説が見つかるかもしれない。
まあ、これで、売りに走ってもいいわけだが、
これを数値的に裏付けようとしたら、博士データサイエンティストが必要で、
彼らが、このモデルをデータから検証して(検定して)有意差を出してくるわけだ・・・
ということで、
仮説構築:BIレベルでできる、ExcelでOK、みんなやるべき
仮説検証:統計知識が必要、専門的
という話になる。
多くの会社では、仮説構築が重要で、仮説検証の統計知識はあってもいいけど、
なくても実践で結果をみることでカバーできる(従来のビジネスで仮説検証といっているのは、これ)
このへんが混じってしまうと、なんだなんだ?となってしまう。