Cassandra MeetUp Tokyo Fall 2014
米国における最新事情のCassandra
・急速に普及→IoT
・業務で使ってる人→数人
・Cassandra:2つの論文
Amazon Dynamo
Google BigTable:HBaseにも似ているところ
Dynamo:ノード お互いに知り合う
データモデル:RDBMSとNoSQLの中間
・マスタースレーブの考え方は、単一障害点がある
Cassandraは、ノードは等価なので、問題ない
→成り代わって処理
緑:Cassandra
青:アプリケーション
赤:ユーザー
リニアにスケールする
ダウンタイムなしにスケールできる
・インターフェース:CQL
SQLに似てるけど
デモ:
Go言語で書いた
・ユースケース
OOYALA:ビデオ配信サービス HadoopからSparkへ
eBay:レイテンシーが低い
Dyn:DNS
coursera:オンライン学習・進捗とか
Netflix:動画サービス・どこまでを見たか?
Safeway:スーパー・レコメンデーション
CERN:物理研究
Comcast:動画配信、SoundCloudも
ブルーマウンテン:証券取引
NYタイムス:キャッシュとして
HEILO:配車最適化
GoDaddy,Rackspace:分析
Datadoc:監視システム
マイクロソフト:Azureの裏でメトリックス情報
ウェザーチャンネル:CMS
NASA:仮想環境・セキュリティ
GitHub、OnLive:分析
名前がいえない会社:7万5千台
■Yahoo JapanにおけるApache Cassandraへの取り組み
・Ingress
・KVSチームの紹介
ほとんどCassandraチーム
開発3人、運用は数人いるが、実際1名
YAHOO30のサービスが利用
→最近チェックした商品
・なぜ、Cassandra
汎用的に使えるNoSQL→特定目的では合った。運用コスト高い
・いくつかのNoSQL比較
高いパフォーマンス、
優れたスケーラビリティ
SPOFが存在しない
提供形態
HTTP
サービス共用
サービス専用
・HTTPインターフェース
WebAPIでHTTP経由で
CQLの機能が不十分。Thriftは実装コストが高い
課題:機能追加、パフォーマンスの低下
Cassandra使いやすくなった:CQL3
運用中の環境
・1.2系と2.0系
・利用は爆速で拡大中
そろそろSSDも
コンシステンシーレベルQUORUM
監視
Nagios
Grafana
repair&compaction→Cronで提供的に
Heap使用率を
・時間経過とともに上昇し性能劣化
・1.2系以降では安定している
・DiskBusy
新サービス
・コネクション数
・リクエスト数
99パーセンタイルレイテンシ
・GC
・DiskBusy
・使い方
nodetool cleanup 大事
・データ残るだけ?
→削除したデータが復活する
ReplicationFactor3
データノードはずす
データ移動
データノード戻す
本のノードのごみデータそのまま
削除リクエスト:ごみデータ残り続ける
またデータノードをはずす
ごみデータ戻る→削除したデータ復活
ノード増減時にクリーンアップ
PHPのドライバをDataStaxで→next year(β版)
・99%タイルレイテンシ:10ミリ秒
Writeは1桁(基本的には1ミリ秒)
→ディスクに行っているので遅い
■日本におけるCassandraを使用したSI事例
ウルシステムズ
RDBのトレンド:Googleトレンド
MySQL、Oracle:右肩下がり
NoSQL、クラウド:あがっている
→NoSQLけんとう
ウルシステムズにおけるCassandraの利用について
事例:4年くらい
JR,三菱電機、博報堂、大手放送局
IoT、M2MにNoSQLが向いている
従来:読み込みメイン
今:データ増えてきた
RDBだとマスタで受ける
某放送局さん
見ているという信号は出せる→しちょうすうが分かる
演出、リアルタイム分かる
国内クラウド:
ポイント:
サーバー足せばできるスケールできる
→シャーディングしないでできる
約束事さえ守れば
クラウドに合っている
他のNoSQLとの比較:なぜCassandra
・単一障害点がない(Mongo→もんごえすがスケールしない)
・サービスが止まらない
・スケーラビリティ抜群と言い切れる
・Apacheのトップレベルプロジェクト→全世界サポート事業継続性
・Javaベース
事例:(北海道にある)フュージョン様(あのフュージョンでない)
・監視システム:止まっては困る
IoT,M2Mに適用できる
JR東日本:えきぽプラス
SIその他メリット
・運用楽になった→おきまりの呪文をDataStaxがそろえてくれた
・ノードの再起動(ローリングで全体再起動)
・他の会社と違ったシステム提案がかける
止まらない、負荷分散、
・拡張性
Solr,Spark
・DSE:サポート
■CaaMS
ソフトバンクモバイル
・データスタックスさんの日本法人もできたことだし、
しゃべります。
・おおっぴらにつぶやかないでね
(ということで、以下省略)
■おわりに
あさって、Cassandraのディープな話
vnode,メモリ等
→第28回Cassandra勉強会
https://atnd.org/events/59186
技術側に特化した情報共有の場
■懇親会で
(原沢さんとの会話、原沢さんがA)
Q:Cassandraで、おそくなることな~い?
A:Indexを貼った場合、RDBみたいに「全部なめる!」みたいな検索をした場合
Q(というかコメント):富士通(FLM)で、Hbaseと一緒にCassandra教えているよね
(実践事例に学ぶ!ビッグデータ利活用研修の4日目「2.ビッグデータ分析基盤の理解」の中)
A:ええ(@_@!)
米国における最新事情のCassandra
・急速に普及→IoT
・業務で使ってる人→数人
・Cassandra:2つの論文
Amazon Dynamo
Google BigTable:HBaseにも似ているところ
Dynamo:ノード お互いに知り合う
データモデル:RDBMSとNoSQLの中間
・マスタースレーブの考え方は、単一障害点がある
Cassandraは、ノードは等価なので、問題ない
→成り代わって処理
緑:Cassandra
青:アプリケーション
赤:ユーザー
リニアにスケールする
ダウンタイムなしにスケールできる
・インターフェース:CQL
SQLに似てるけど
デモ:
Go言語で書いた
・ユースケース
OOYALA:ビデオ配信サービス HadoopからSparkへ
eBay:レイテンシーが低い
Dyn:DNS
coursera:オンライン学習・進捗とか
Netflix:動画サービス・どこまでを見たか?
Safeway:スーパー・レコメンデーション
CERN:物理研究
Comcast:動画配信、SoundCloudも
ブルーマウンテン:証券取引
NYタイムス:キャッシュとして
HEILO:配車最適化
GoDaddy,Rackspace:分析
Datadoc:監視システム
マイクロソフト:Azureの裏でメトリックス情報
ウェザーチャンネル:CMS
NASA:仮想環境・セキュリティ
GitHub、OnLive:分析
名前がいえない会社:7万5千台
■Yahoo JapanにおけるApache Cassandraへの取り組み
・Ingress
・KVSチームの紹介
ほとんどCassandraチーム
開発3人、運用は数人いるが、実際1名
YAHOO30のサービスが利用
→最近チェックした商品
・なぜ、Cassandra
汎用的に使えるNoSQL→特定目的では合った。運用コスト高い
・いくつかのNoSQL比較
高いパフォーマンス、
優れたスケーラビリティ
SPOFが存在しない
提供形態
HTTP
サービス共用
サービス専用
・HTTPインターフェース
WebAPIでHTTP経由で
CQLの機能が不十分。Thriftは実装コストが高い
課題:機能追加、パフォーマンスの低下
Cassandra使いやすくなった:CQL3
運用中の環境
・1.2系と2.0系
・利用は爆速で拡大中
そろそろSSDも
コンシステンシーレベルQUORUM
監視
Nagios
Grafana
repair&compaction→Cronで提供的に
Heap使用率を
・時間経過とともに上昇し性能劣化
・1.2系以降では安定している
・DiskBusy
新サービス
・コネクション数
・リクエスト数
99パーセンタイルレイテンシ
・GC
・DiskBusy
・使い方
nodetool cleanup 大事
・データ残るだけ?
→削除したデータが復活する
ReplicationFactor3
データノードはずす
データ移動
データノード戻す
本のノードのごみデータそのまま
削除リクエスト:ごみデータ残り続ける
またデータノードをはずす
ごみデータ戻る→削除したデータ復活
ノード増減時にクリーンアップ
PHPのドライバをDataStaxで→next year(β版)
・99%タイルレイテンシ:10ミリ秒
Writeは1桁(基本的には1ミリ秒)
→ディスクに行っているので遅い
■日本におけるCassandraを使用したSI事例
ウルシステムズ
RDBのトレンド:Googleトレンド
MySQL、Oracle:右肩下がり
NoSQL、クラウド:あがっている
→NoSQLけんとう
ウルシステムズにおけるCassandraの利用について
事例:4年くらい
JR,三菱電機、博報堂、大手放送局
IoT、M2MにNoSQLが向いている
従来:読み込みメイン
今:データ増えてきた
RDBだとマスタで受ける
某放送局さん
見ているという信号は出せる→しちょうすうが分かる
演出、リアルタイム分かる
国内クラウド:
ポイント:
サーバー足せばできるスケールできる
→シャーディングしないでできる
約束事さえ守れば
クラウドに合っている
他のNoSQLとの比較:なぜCassandra
・単一障害点がない(Mongo→もんごえすがスケールしない)
・サービスが止まらない
・スケーラビリティ抜群と言い切れる
・Apacheのトップレベルプロジェクト→全世界サポート事業継続性
・Javaベース
事例:(北海道にある)フュージョン様(あのフュージョンでない)
・監視システム:止まっては困る
IoT,M2Mに適用できる
JR東日本:えきぽプラス
SIその他メリット
・運用楽になった→おきまりの呪文をDataStaxがそろえてくれた
・ノードの再起動(ローリングで全体再起動)
・他の会社と違ったシステム提案がかける
止まらない、負荷分散、
・拡張性
Solr,Spark
・DSE:サポート
■CaaMS
ソフトバンクモバイル
・データスタックスさんの日本法人もできたことだし、
しゃべります。
・おおっぴらにつぶやかないでね
(ということで、以下省略)
■おわりに
あさって、Cassandraのディープな話
vnode,メモリ等
→第28回Cassandra勉強会
https://atnd.org/events/59186
技術側に特化した情報共有の場
■懇親会で
(原沢さんとの会話、原沢さんがA)
Q:Cassandraで、おそくなることな~い?
A:Indexを貼った場合、RDBみたいに「全部なめる!」みたいな検索をした場合
Q(というかコメント):富士通(FLM)で、Hbaseと一緒にCassandra教えているよね
(実践事例に学ぶ!ビッグデータ利活用研修の4日目「2.ビッグデータ分析基盤の理解」の中)
A:ええ(@_@!)