日経コンピューターネタでもうひとつ。
日経コンピューター 2013年4月4日号 26ページ~
ビッグデータの「初動」3原則
というのがある。初動3原則は、
1.全社連携の軸を担えるシステム部門が主導権を取る
2.分析の有効性を説いて回り利用部門・経営陣を巻き込む
3.今後2年のシステム、人材・組織、データ充実を今のうちに計画
だそうな。
で、問題なのは、以下の論調が、
ビッグデータは、Hadoop+R・SPSSというカタチ
なのに、36ページにExcelの話が出てくる。
JRのトレインチャンネルには、
ビッグデータ時代に(中略)エクセルの力
みたいなのがでてくる・・・
ビッグデータは、Hadoop+Rなの?Excelなの?
この記事を読んだだけでは良くわからない。
そこで、つけたし。
■Hadoop、R・SPSS、Excel(やOLAP)
ローソンのビッグデータは、なぜ山本一郎氏に叩かれるほどの成果しか出なかったのか?
http://blog.goo.ne.jp/xmldtp/e/f6aa4b0ee88352c8bf5b91e2816ce296
にも書いたけど、Hadoopだけではだめ・・・
その理由は、Hadoop、R,Excelそれぞれに、得意不得意があるから。
Hadoop
基本的にデータをためるものと思ったほうがいい
バッチ処理は早い。大得意
リアルタイム処理、小量トランザクションは苦手。
R・SPSS
計算は得意。いろんな統計処理ができる
そもそも、データベースではないので、データはどこからか持ってくる
特にRは、キレイに表示するのは大変。まあ、plotで表示はするんだけど・・
Excel(やOLAP)
でかいデータはだめ
グラフ表示はお手の物。
ちょっとした処理は、気軽にできる
なので、目的に応じて、3つを使い分ける。
その際に、つなぐツールとして、(日経コンピューターの記事では紹介されていなかったけど)
ETLがある。
■どう使い分けるか
・とりあえずデータはHadoopみたいな大容量処理できるものに入れる
→MySQLとかから、Hadoopに入れる仕組みを作る
・ETLツールによって、適当に切り分け、EXCELやOLAPで
データサイエンティストが、いろいろ面白い現象を考える
→「ローソンのビッグデータは、なぜ山本一郎氏に叩かれるほどの成果しか出なかったのか?」では、
ここをBigQueryを使って話した。それでもいいが、そうするとデータをHadoopと
BigQueryに入れることになる。
それもいいけど、ETLツールを使ってちょっとデータを切ってきて、見るっていうほうが
簡単かな
・そのなかで、あ、これいけそう!と思ったものを、RやSPSSで処理する。
このとき、Hadoopに接続することになる。
RとHadoopは、標準入出力を介して、Hadoop Streamingを使う手もあるし、
ETLツールを使って切り出したり、Hive使ったりという手もある
・処理結果は、Excelなんかでグラフ化したほうがきれいかもしれない
いや、がんばりたかったら、Rでがんばって、グラフ書いてもいいけどさ・・
それを、一般の人にご披露する
・一般的な営業、企画、事務系の人には、必要そうなデータをバッチで適当な量切り出し、
Excelで見てもらったり、
必要そうな資料をバッチ出力したりということで、いいと思う。
1つの技術で全部やろうとするより、
担当者のスキルとレベルに応じて、扱うデータやツールを
組み合わせたほうがいい。
なお、ETLツールとしては、TalendはHadoop使えたと思う
また、ETLにこだわらなくても、HIVE使って検索、その結果を利用しても良い。
日経コンピューター 2013年4月4日号 26ページ~
ビッグデータの「初動」3原則
というのがある。初動3原則は、
1.全社連携の軸を担えるシステム部門が主導権を取る
2.分析の有効性を説いて回り利用部門・経営陣を巻き込む
3.今後2年のシステム、人材・組織、データ充実を今のうちに計画
だそうな。
で、問題なのは、以下の論調が、
ビッグデータは、Hadoop+R・SPSSというカタチ
なのに、36ページにExcelの話が出てくる。
JRのトレインチャンネルには、
ビッグデータ時代に(中略)エクセルの力
みたいなのがでてくる・・・
ビッグデータは、Hadoop+Rなの?Excelなの?
この記事を読んだだけでは良くわからない。
そこで、つけたし。
■Hadoop、R・SPSS、Excel(やOLAP)
ローソンのビッグデータは、なぜ山本一郎氏に叩かれるほどの成果しか出なかったのか?
http://blog.goo.ne.jp/xmldtp/e/f6aa4b0ee88352c8bf5b91e2816ce296
にも書いたけど、Hadoopだけではだめ・・・
その理由は、Hadoop、R,Excelそれぞれに、得意不得意があるから。
Hadoop
基本的にデータをためるものと思ったほうがいい
バッチ処理は早い。大得意
リアルタイム処理、小量トランザクションは苦手。
R・SPSS
計算は得意。いろんな統計処理ができる
そもそも、データベースではないので、データはどこからか持ってくる
特にRは、キレイに表示するのは大変。まあ、plotで表示はするんだけど・・
Excel(やOLAP)
でかいデータはだめ
グラフ表示はお手の物。
ちょっとした処理は、気軽にできる
なので、目的に応じて、3つを使い分ける。
その際に、つなぐツールとして、(日経コンピューターの記事では紹介されていなかったけど)
ETLがある。
■どう使い分けるか
・とりあえずデータはHadoopみたいな大容量処理できるものに入れる
→MySQLとかから、Hadoopに入れる仕組みを作る
・ETLツールによって、適当に切り分け、EXCELやOLAPで
データサイエンティストが、いろいろ面白い現象を考える
→「ローソンのビッグデータは、なぜ山本一郎氏に叩かれるほどの成果しか出なかったのか?」では、
ここをBigQueryを使って話した。それでもいいが、そうするとデータをHadoopと
BigQueryに入れることになる。
それもいいけど、ETLツールを使ってちょっとデータを切ってきて、見るっていうほうが
簡単かな
・そのなかで、あ、これいけそう!と思ったものを、RやSPSSで処理する。
このとき、Hadoopに接続することになる。
RとHadoopは、標準入出力を介して、Hadoop Streamingを使う手もあるし、
ETLツールを使って切り出したり、Hive使ったりという手もある
・処理結果は、Excelなんかでグラフ化したほうがきれいかもしれない
いや、がんばりたかったら、Rでがんばって、グラフ書いてもいいけどさ・・
それを、一般の人にご披露する
・一般的な営業、企画、事務系の人には、必要そうなデータをバッチで適当な量切り出し、
Excelで見てもらったり、
必要そうな資料をバッチ出力したりということで、いいと思う。
1つの技術で全部やろうとするより、
担当者のスキルとレベルに応じて、扱うデータやツールを
組み合わせたほうがいい。
なお、ETLツールとしては、TalendはHadoop使えたと思う
また、ETLにこだわらなくても、HIVE使って検索、その結果を利用しても良い。