昨日、
ビッグデータは、そうやって使うもんじゃないんじゃない?そもそも・・・
http://blog.goo.ne.jp/xmldtp/e/cd13de092ea5ab00023e18539234078f
というエントリを書いたけど、あの補足
なぜ、ローソンのビックデータは、
ビッグデータという、99%の事業者には効果の無い話
http://bylines.news.yahoo.co.jp/yamamotoichiro/20130328-00024117/
に指摘されるような結果になってしまったか、
つまり、昨日のエントリのような解析はできなかったのかについて、
技術的な話を書いていなかったので、ちょっとつけたし。
昨日のエントリを敷衍していうと、ビッグデータをビジネスに生かすには
・まず、調査したい対象に、あたりをつける
→仮説はあってもなくてもいい
。その探索空間の中で、調べたいことを調べる
→仮説がある場合は仮説検証
→ないときは、潜在因子をしらべる
このとき、技術的に言うと、
・あたりを調べるのは、BIツールをつかって、
ドリリング 、スライシング、ダイシングをして、
おもしろい(儲かりそうな?興味深い?)データ空間をみつける
→OLAP
・その空間を、データ解析テクニックを使って調べる。
→バッチ的に大量データで調べる
ローソンの使っている、Hadoopは、後者の、検証データをマイニングするのには
むいているが、BIツールで可視化しながら、ぐるぐる見ていくには、向かない手法
なのだ。
Hadoopというのは、バッチで、大量データを処理するには向いている。
しかし、それなりの時間はかかる。
BIツールみたいに、データと対話しながら、いろいろ変えながら見る
のは、Big Queryというまた別の技術を使う。
これなしに、Hadoopだけでマイニングすると、ビッグデータをそのまま
扱うから、平均的な当たり前のことしか見えないとなる。
実際にはBigQueryだけでは、可視化できないし、カバーしきれない
ところもある。そこで、いろいろな技術を適宜使っていくんだけど、
Hadoopで何でもできると考えてしまうと(こう考えている人多いかも?)
たいしたデータは上がってこない。
これが、失敗した原因だと思う。
ビッグデータは、そうやって使うもんじゃないんじゃない?そもそも・・・
http://blog.goo.ne.jp/xmldtp/e/cd13de092ea5ab00023e18539234078f
というエントリを書いたけど、あの補足
なぜ、ローソンのビックデータは、
ビッグデータという、99%の事業者には効果の無い話
http://bylines.news.yahoo.co.jp/yamamotoichiro/20130328-00024117/
に指摘されるような結果になってしまったか、
つまり、昨日のエントリのような解析はできなかったのかについて、
技術的な話を書いていなかったので、ちょっとつけたし。
昨日のエントリを敷衍していうと、ビッグデータをビジネスに生かすには
・まず、調査したい対象に、あたりをつける
→仮説はあってもなくてもいい
。その探索空間の中で、調べたいことを調べる
→仮説がある場合は仮説検証
→ないときは、潜在因子をしらべる
このとき、技術的に言うと、
・あたりを調べるのは、BIツールをつかって、
ドリリング 、スライシング、ダイシングをして、
おもしろい(儲かりそうな?興味深い?)データ空間をみつける
→OLAP
・その空間を、データ解析テクニックを使って調べる。
→バッチ的に大量データで調べる
ローソンの使っている、Hadoopは、後者の、検証データをマイニングするのには
むいているが、BIツールで可視化しながら、ぐるぐる見ていくには、向かない手法
なのだ。
Hadoopというのは、バッチで、大量データを処理するには向いている。
しかし、それなりの時間はかかる。
BIツールみたいに、データと対話しながら、いろいろ変えながら見る
のは、Big Queryというまた別の技術を使う。
これなしに、Hadoopだけでマイニングすると、ビッグデータをそのまま
扱うから、平均的な当たり前のことしか見えないとなる。
実際にはBigQueryだけでは、可視化できないし、カバーしきれない
ところもある。そこで、いろいろな技術を適宜使っていくんだけど、
Hadoopで何でもできると考えてしまうと(こう考えている人多いかも?)
たいしたデータは上がってこない。
これが、失敗した原因だと思う。