ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

"「CEP」知るなら今でしょ"を聞いてきた

2014-11-13 23:08:17 | AI・BigData
DB Tech Showcase 東京2014つづき、11/12の

今を分析する日立の「CEP」知るなら今でしょ

をきいてきたので、めもめも




CEPって何?
何が新しくて、どこで使われているの?
といった疑問を解決します。

CEPとは
・ビッグデータの時代(モノ・ヒト・コト)
  IoTとM2M:いつでもどこでも早く便利に!
  Intelligence:ビッグデータから価値ある情報を抽出
  Speed:ビジネススピード

・Intelligence:ビッグデータから価値ある情報を抽出
  1つの値でなく、値の変化に意味がある
    逐次発生し続けるデータから、価値ある情報を抽出
    意味ある「値の集合」を分析することで、価値ある情報を抽出
    統計分析、傾向分析、相関分析など、分析方法は様々

技術的な特徴とその原理
・CEP基盤の動作原理
  データ発生時にリアルタイムに処理するフローがtがデータ処理
   ストック型データ処理(従来DBMS)
     →フロー型データ処理(CEP:複合データ処理)

・実現するデータ処理基盤
  ウィンドウ演算
  インメモリ差分計算
  分析シナリオをCQL(SQL拡張)

・ウィンドウ演算
  無限に続く時系列データを効率よく処理
 代表的なウィンドウ演算
  シャンピイングウィンドウ:ウィンドウの幅ぶん動く
  オーバーラッピングウィンドウ:ウィンドウの幅がオーバーラップ
  スライディングウィンドウ:スライドさせ、ひとつひとつ

・インメモリ差分計算
  圧倒的な超高速処理を実現
   インメモリデータ処理によりディスクI/Oを排除
   差分計算:一定の計算量

・クエリ言語CQL(continuous Query Language)
  SQLに時間の概念を追加
  IStream( →ストリーム化演算
   Select id sum (val) as S
    From str[Rows 3] →ウィンドウ演算:時間の概念
GROUP BY ID )

・例
  株の自動取引処理

どこでどう使われているのか:適用事例
・モノ
 ・株価指数算出配信サービス:東証
 ・Webサービス稼動状況モニタリング
 ・プローブデータ活動の方向性
  交通状況リアルタイムモニタリング
 ・データセンターの空調制御最適化

ヒト
 ・リアルタイム広告コンテンツ配信
 ・日立・横浜事業所「快適ecoプロジェクト」
 ・ヒトの情報活用の可能性

まとめ
CEP:今を分析
ビッグデータ活用のためのプロセス
  仮説立案とビジョン実現のプロセス



  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

「カラムナデータベース徹底比較」をきいてきた!

2014-11-13 02:35:57 | AI・BigData
DB Tech Showcase 東京2014つづき、超満席の

カラムナデータベース徹底比較

をきいてきたので、めもめも




カラムナーデータベースとは
・ローでなく、カラム指向で処理を行う
  →必要なカラムのみを読み込むことで、IOへらす。圧縮率あげる
・ロー単位で追加更新削除が苦手。OLTPには向いていない
・おもなもの
  ねてぃーざ
  れっどしふと

検証の背景
・大量のデータからの解析が必要
  DBMS限界
・最適なカラムナデータベースがわからない
  →比較検証の基準があいまい
  →検証に利用されているデータ量が少ない
→業務で利用しているデータ、流しているクエリ、同一コストのインフラ

検証の方法
 Redshift(本番運用)
 Matrix
 InfiniDB→開発中止、解散
 Impala→Hive接続
 Presto→Hive接続
 BigQuery

検証データ
  未圧縮1.5Tと10Tの2パターン
   RedShiftからunloadでデータをS3 約10TBで9時間
  データインポート
 RedShift Copyコマンド
 Matrix knimeというETL
 InfiniDB→cpimport
 Inpala,Presto→Metadataストア
 BigQuery→Google Cloud Strageから

Query
 1.5T
  likeで前方一致
 10TB
  Group by
  サブクエリーをGroup by
  サブクエリー2つをJoin Where
  Group by,order byでminとcount

検証
 AWSで(big Query以外)
 RedShift8台
 Inpala,Presto9台

結果
詳しい数字はたぶん「サイバーエージェント公式エンジニアブログ」
にのるだろうから、そちらをみてください

1.5T
 クエリー時間
  RedSHift せいのうよい 
  Inpala,Presto おそい
  Infiniちかい 
  matrix,検証できない
  bigquery 圧勝

10T
  RedSHift せいのうよい
  Inpala,Presto おそい
  matrix, おなじくらい
  bigquery 圧勝

Redshift:管理コストを考えれば、かなり良い選択肢
  →これを基準とする

matrix(中身Redshift)
  ETLツールにバグ1週間で直す→Actian社のサポート
  同等のパフォーマンス
  →構成を変えれば、スケールすれば

infiniDB
  MySQLデータが使えて選択肢と考えてよかったかな・・
  と思ったけど、解散してしまったので・・・残念

Impara/Presto
  データが多いと時間がかかる
  →Redshiftにすれば
  Hadoopを使っている場合

BigQuery
  とにかくはやい!!!
  性能的にはかなりいい
  安い
  最強

  ・・・ただし、RedShiftのQueryが使えないことも
  手間かかる
  データが増えてもレスポンス変わらない

1.5T 20億ロー
10T  160億ロー

13日、ブログが乗る「サイバーエージェント公式エンジニアブログ」
http://ameblo.jp/principia-ca/

Redshift安いか?
2T,3Tになると費用高いけど、50G程度なら・・(個人的感想)


  

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする