ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

Hadoopは30G~100G倍度以上のものへの利用に向いている

2011-07-06 23:22:01 | トピックス
Hadoop Forum 2011で、きいてきた内容まとめ

「エンタープライズにおけるHadoop活用」
三菱東京UFJインフォメーションテクノロジーの人

(以下、お話の内容まとめ)




■Hadoopとは
・情報爆発時代の到来
・RDBMSが想定するデータ量を大幅に超過
   →超大量データを扱うためのインフラとしてHadoop
・インターネット企業とエンタープライズ:扱う量が違う
   →利用価値は?
・Hadoop
  ・大量データを分散並列で処理するためのオープンソース
  ・Linuxのみサポート




■Hadoopのアーキテクチャ
 2つ

・(1)HDFS:分散ファイルシステム
  マスターノード(NAME Node、メタデータ、DataNodeの生死管理)と
  スレーブノード(DataNode)

・(2)MapReduce:分散処理フレームワーク
  Map:分解、加工、抽出
  Shaffle:並び替え、統合
  Reduce:集約、連結




■Hadoop活用のメリット
・スケーラビリティ
  →スモールスタート
・パフォーマンス
・コスト
・アプリケーションの生産性・保守性向上




■エンタープライズシステムにおけるHadoop活用

種別       一貫性

リアルタイム   必要     RDB
         不要     KVS
バッチ      必要     RDB
         不要     HDFS



まとめると
  更新される  RDB
  更新されない(過去履歴等) レスポンス重視 KVS
               スループット重視 HDFS

→CAP定理から考えても・・

細かく機能でいうと
・向いている処理:データ更新の一貫性を持つ必要ない処理
   ファイル入出力
   個別処理
   フィルタリング
   ソートマージ
   サマライズ
   ジョイン  ◎
・向いていない処理
   順序を意識した処理

たとえば

・情報系
  データウェアハウス
  データマイニング

・基幹系
  バッチ

・文書、コンテンツ管理

・対顧客チャネル
  レコメンデーション

・業務システム全般
  ログ管理

データ規模は?
 小規模データでは向いていない
 大規模:30G~100Gぐらい
    より大きければ、メリットあり




■開発手法
・Java
・HqdoopStreaming + 任意のスクリプト言語
・PIG
・Hive




■実際の利用状況

ログ監視にりようしているとのこと




間違ってたり、勘違いしてたらごめん。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする