前に、データの種類と、Hadoopの位置づけ(図だけ)で図だけ書いたところ。
その図はこんなかんじでした。
これは、Hadoop FORUM 2011の「Big dataが拓く、ビジネスの未来」で似たようなというか、もっとかっちょよい図が出たんだけど、その話について。
その講演では、どうも、3つの事象に、データ活用を分けている。
1つは、RDBの中にあるようなデータで、構造が決まっている大量データ。
2つめ、構造があまりはっきりしない文書のようなデータ(半構造、非構造データ)
3つめ、どんどん来るデータをどんどん処理していく、ストリーミングがた。
Hadoopは、大量処理に向いている。
ということは、1、2の分野における、大量処理に向いているということになります
(30GByte以上あるような)
それ以下のデータの場合は、1だと従来のRDB、2は、まだはっきりしないけど、KVSみたいなものかもしれない。
3に関しては、リアルタイムに大量データを処理していくもので、これは、HPCとかを使って、同時並列的に処理していくのに適しているもの。
なので、Hadoopの守備範囲ではない。
ということで、上の図になります。
その図はこんなかんじでした。
これは、Hadoop FORUM 2011の「Big dataが拓く、ビジネスの未来」で似たようなというか、もっとかっちょよい図が出たんだけど、その話について。
その講演では、どうも、3つの事象に、データ活用を分けている。
1つは、RDBの中にあるようなデータで、構造が決まっている大量データ。
2つめ、構造があまりはっきりしない文書のようなデータ(半構造、非構造データ)
3つめ、どんどん来るデータをどんどん処理していく、ストリーミングがた。
Hadoopは、大量処理に向いている。
ということは、1、2の分野における、大量処理に向いているということになります
(30GByte以上あるような)
それ以下のデータの場合は、1だと従来のRDB、2は、まだはっきりしないけど、KVSみたいなものかもしれない。
3に関しては、リアルタイムに大量データを処理していくもので、これは、HPCとかを使って、同時並列的に処理していくのに適しているもの。
なので、Hadoopの守備範囲ではない。
ということで、上の図になります。