2014年11月13日のブログ記事一覧-ウィリアムのいたずらの、まちあるき、たべあるき

"「CEP」知るなら今でしょ"を聞いてきた

2014-11-13 23:08:17 | AI・BigData

DB Tech Showcase　東京2014つづき、11/12の

今を分析する日立の「CEP」知るなら今でしょ

をきいてきたので、めもめも

CEPって何？
何が新しくて、どこで使われているの？
といった疑問を解決します。

CEPとは
・ビッグデータの時代（モノ・ヒト・コト）
　　IoTとM2M：いつでもどこでも早く便利に！
　　Intelligence：ビッグデータから価値ある情報を抽出
　　Speed：ビジネススピード

・Intelligence：ビッグデータから価値ある情報を抽出
　　１つの値でなく、値の変化に意味がある
　　　　逐次発生し続けるデータから、価値ある情報を抽出
　　　　意味ある「値の集合」を分析することで、価値ある情報を抽出
　　　　統計分析、傾向分析、相関分析など、分析方法は様々

技術的な特徴とその原理
・CEP基盤の動作原理
　　データ発生時にリアルタイムに処理するフローがtがデータ処理
　　　ストック型データ処理（従来DBMS)
　　　　　→フロー型データ処理（CEP：複合データ処理)

・実現するデータ処理基盤
　　ウィンドウ演算
　　インメモリ差分計算
　　分析シナリオをCQL(SQL拡張）

・ウィンドウ演算
　　無限に続く時系列データを効率よく処理
　代表的なウィンドウ演算
　　シャンピイングウィンドウ：ウィンドウの幅ぶん動く
　　オーバーラッピングウィンドウ：ウィンドウの幅がオーバーラップ
　　スライディングウィンドウ：スライドさせ、ひとつひとつ

・インメモリ差分計算
　　圧倒的な超高速処理を実現
　　　インメモリデータ処理によりディスクI/Oを排除
　　　差分計算：一定の計算量

・クエリ言語CQL（continuous Query Language)
　　SQLに時間の概念を追加
　　IStream( →ストリーム化演算
　　　Select id sum (val) as S
　　　　From str[Rows 3]　→ウィンドウ演算：時間の概念
GROUP BY ID )

・例
　　株の自動取引処理

どこでどう使われているのか：適用事例
・モノ
　・株価指数算出配信サービス：東証
　・Webサービス稼動状況モニタリング
　・プローブデータ活動の方向性
　　交通状況リアルタイムモニタリング
　・データセンターの空調制御最適化

ヒト
　・リアルタイム広告コンテンツ配信
　・日立・横浜事業所「快適ecoプロジェクト」
　・ヒトの情報活用の可能性

まとめ
CEP：今を分析
ビッグデータ活用のためのプロセス
　　仮説立案とビジョン実現のプロセス

ランキングに参加中。クリックして応援お願いします！

「カラムナデータベース徹底比較」をきいてきた！

2014-11-13 02:35:57 | AI・BigData

DB Tech Showcase　東京2014つづき、超満席の

カラムナデータベース徹底比較

をきいてきたので、めもめも

カラムナーデータベースとは
・ローでなく、カラム指向で処理を行う
　　→必要なカラムのみを読み込むことで、IOへらす。圧縮率あげる
・ロー単位で追加更新削除が苦手。OLTPには向いていない
・おもなもの
　　ねてぃーざ
　　れっどしふと

検証の背景
・大量のデータからの解析が必要
　　DBMS限界
・最適なカラムナデータベースがわからない
　　→比較検証の基準があいまい
　　→検証に利用されているデータ量が少ない
→業務で利用しているデータ、流しているクエリ、同一コストのインフラ

検証の方法
　Redshift（本番運用）
　Matrix
　InfiniDB→開発中止、解散
　Impala→Hive接続
　Presto→Hive接続
　BigQuery

検証データ
　　未圧縮１．５Tと１０Tの２パターン
　　 RedShiftからunloadでデータをS3　約１０TBで９時間
　　データインポート
　RedShift Copyコマンド
　Matrix knimeというETL
　InfiniDB→cpimport
　Inpala,Presto→Metadataストア
　BigQuery→Google Cloud Strageから

Query
　１．５T
　　likeで前方一致
　１０TB
　　Group by
　　サブクエリーをGroup by
　　サブクエリー２つをJoin Where
　　Group by,order byでminとcount

検証
　AWSで（big Query以外）
　RedShift８台
　Inpala,Presto９台

結果
詳しい数字はたぶん「サイバーエージェント公式エンジニアブログ」
にのるだろうから、そちらをみてください

１．５T
　クエリー時間
　　RedSHift せいのうよい　
　　Inpala,Presto　おそい
　　Infiniちかい　
　　matrix,検証できない
　　bigquery　圧勝

１０T
　　RedSHift せいのうよい
　　Inpala,Presto　おそい
　　matrix,　おなじくらい
　　bigquery　圧勝

Redshift：管理コストを考えれば、かなり良い選択肢
　　→これを基準とする

matrix（中身Redshift）
　　ETLツールにバグ１週間で直す→Actian社のサポート
　　同等のパフォーマンス
　　→構成を変えれば、スケールすれば

infiniDB
　　MySQLデータが使えて選択肢と考えてよかったかな・・
　　と思ったけど、解散してしまったので・・・残念

Impara/Presto
　　データが多いと時間がかかる
　　→Redshiftにすれば
　　Hadoopを使っている場合

BigQuery
　　とにかくはやい！！！
　　性能的にはかなりいい
　　安い
　　最強

　　・・・ただし、RedShiftのQueryが使えないことも
　　手間かかる
　　データが増えてもレスポンス変わらない

１．５T　２０億ロー
１０T　　１６０億ロー

１３日、ブログが乗る「サイバーエージェント公式エンジニアブログ」
http://ameblo.jp/principia-ca/

Redshift安いか？
２T,3Tになると費用高いけど、５０G程度なら・・（個人的感想）

　　

ランキングに参加中。クリックして応援お願いします！

記事一覧 | 画像一覧 | フォロワー一覧 | フォトチャンネル一覧

日	月	火	水	木	金	土
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

アクセス
閲覧	1,743	PV
訪問者	926	IP
トータル
閲覧	34,808,794	PV
訪問者	8,676,535	IP
ランキング
日別	348	位
週別	741	位

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】「交通系IC」は何を使っていますか？
	訪問者数に応じてdポイント最大1,000pt当たる！
	dポイントが当たる！無料『毎日くじ』

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

"「CEP」知るなら今でしょ"を聞いてきた

「カラムナデータベース徹底比較」をきいてきた！

カレンダー

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

"「CEP」知るなら今でしょ"を聞いてきた

「カラムナデータベース徹底比較」をきいてきた！

カレンダー

ログイン

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ