NIIのトップエスイー シンポジウムの基調講演
「Googleクラウドが実現する大規模並列クエリサービス」
を聞いてきたので、メモメモ
■前ふり
・https://cloud.google.com/でGoogleのクラウドサービス全部見える
・今日のお話は、White paper
An Inside Look at Google BigQuery
https://cloud.google.com/files/BigQueryTechnicalWP.pdf
のまとめ
■アジェンダ
・ビッグデータをGoogleスピードで扱うためのテクノロジー
・Google Big Queryデモ&事例紹介
・Google Big Queryはなぜ早い
・MapReduceとGoogle Big Queryの適材適所
■ビッグデータをGoogleスピードで扱うためのテクノロジー
・Googleのビッグデータ
Youtube 1分間で72時間分
検索インデックス 100PB
Gmailのアクティブユーザー 4.25億
・MapReduceだと
数分~一晩かかるのはざら
→何か考えたとき、いちいちMapReduceではやっていられない
→バグに気づくのが遅い
・DataWarehouse
何千万、数億とかかる
アドホックなデータ分析に対応しにくい
インデックス、ディメンジョンの事前設定がいる
・Dremel(どれめる)Googleで2006年から運用
大規模並列クエリインフラ
インデックス不要、ありえない速さ
あらゆるビッグデータをGoogleスピードで扱える
Webコンテンツの分析
スパムデータ解析
:
:
・Google Big Query
Dremelの公開版
2012年5月公開
月額$0.12/GB
デモは無償で
・Big Queryの使い方
Google Cloud Strage
+Google Big Query
⇔REST API,コマンドライン WebAPI
⇔BIツール、Google Spread Sheet
■Google Big Queryデモ&事例紹介
・サンプルテーブル:Wikipediaテーブル
サンプルクエリ:一番更新されているものを検索
App EngineはBigTableだったので、
検索に制限があった
BigQueryはSQLのように使える
・ERPからインポートしたデータを
BIME(びーむ):クラウドBIツールで
■Google Big Queryはなぜ早い
・世界最大規模の超並列
・カラム思考ストレージを採用
→高い圧縮率
・数万台で並列処理
→1TBを1秒でフルスキャン、
1万台のディスク、5千個のプロセッサ
・階層アーキテクチャ
クエリの分散、結果の集約
■MapReduceとGoogle Big Queryの適材適所
・BigQueryがむくもの
アドホック、OLAP,BIに向く
レスポンスは早い、非技術者でも
→トライ&エラーするものなど
・Hadoopが向くもの
データマイニング、複雑なロジック、
大規模データ生成、データ更新には向かない
→バッチ処理、大規模データ出力、データマイニング
・SRE(さいと・りらいあぶる・えんじにあ)が雇えないと
数千台の並列分散は難しい
・Google Compute Engine(まだ公開されていない)
+ Hadoop →ETL
■質問
・RDBは?
答え
・Google App Table:Bigtable=NO SQL
・Google Cloud SQL:MySQL→今後もある
・次世代 NO SQLとRDBの中間
google spanner(すぱなー)
「Googleクラウドが実現する大規模並列クエリサービス」
を聞いてきたので、メモメモ
■前ふり
・https://cloud.google.com/でGoogleのクラウドサービス全部見える
・今日のお話は、White paper
An Inside Look at Google BigQuery
https://cloud.google.com/files/BigQueryTechnicalWP.pdf
のまとめ
■アジェンダ
・ビッグデータをGoogleスピードで扱うためのテクノロジー
・Google Big Queryデモ&事例紹介
・Google Big Queryはなぜ早い
・MapReduceとGoogle Big Queryの適材適所
■ビッグデータをGoogleスピードで扱うためのテクノロジー
・Googleのビッグデータ
Youtube 1分間で72時間分
検索インデックス 100PB
Gmailのアクティブユーザー 4.25億
・MapReduceだと
数分~一晩かかるのはざら
→何か考えたとき、いちいちMapReduceではやっていられない
→バグに気づくのが遅い
・DataWarehouse
何千万、数億とかかる
アドホックなデータ分析に対応しにくい
インデックス、ディメンジョンの事前設定がいる
・Dremel(どれめる)Googleで2006年から運用
大規模並列クエリインフラ
インデックス不要、ありえない速さ
あらゆるビッグデータをGoogleスピードで扱える
Webコンテンツの分析
スパムデータ解析
:
:
・Google Big Query
Dremelの公開版
2012年5月公開
月額$0.12/GB
デモは無償で
・Big Queryの使い方
Google Cloud Strage
+Google Big Query
⇔REST API,コマンドライン WebAPI
⇔BIツール、Google Spread Sheet
■Google Big Queryデモ&事例紹介
・サンプルテーブル:Wikipediaテーブル
サンプルクエリ:一番更新されているものを検索
App EngineはBigTableだったので、
検索に制限があった
BigQueryはSQLのように使える
・ERPからインポートしたデータを
BIME(びーむ):クラウドBIツールで
■Google Big Queryはなぜ早い
・世界最大規模の超並列
・カラム思考ストレージを採用
→高い圧縮率
・数万台で並列処理
→1TBを1秒でフルスキャン、
1万台のディスク、5千個のプロセッサ
・階層アーキテクチャ
クエリの分散、結果の集約
■MapReduceとGoogle Big Queryの適材適所
・BigQueryがむくもの
アドホック、OLAP,BIに向く
レスポンスは早い、非技術者でも
→トライ&エラーするものなど
・Hadoopが向くもの
データマイニング、複雑なロジック、
大規模データ生成、データ更新には向かない
→バッチ処理、大規模データ出力、データマイニング
・SRE(さいと・りらいあぶる・えんじにあ)が雇えないと
数千台の並列分散は難しい
・Google Compute Engine(まだ公開されていない)
+ Hadoop →ETL
■質問
・RDBは?
答え
・Google App Table:Bigtable=NO SQL
・Google Cloud SQL:MySQL→今後もある
・次世代 NO SQLとRDBの中間
google spanner(すぱなー)