2010年8月15日のブログ記事一覧-ひしだまの変更履歴

HBase0.89.20100726の変更点

2010-08-15 21:16:32 | PG（NoSQL）

HBase0.89.20100726の変更点を調査。

プログラムを書く際に関係しそうなのは、KeyValueにメソッドが増えたのと、新しいフィルター（TimestampsFilter）が追加になったことくらいかな？
HBaseConfigurationのコンストラクターを呼び出した際の警告メッセージの訂正なんて、たぶん関係ないだろうしなｗ

さて次は…
Cassandraに0.7.0 beta1が出たって？
Hadoopも久しぶりにバージョンアップ。0-21.0-candidate-1
Cascadingもいつの間にか1.1.2が出てる…。

…やってられるかぁ！(苦笑)
いいやベータ版は。正式版が出るまで保留しよう…。

HBaseでWordCountの為のテーブル設計

2010-08-15 06:27:21 | PG（NoSQL）

こないだ、HBaseのテーブルを読み込んで単語数をカウントするWordCountを作ってみたが、これは出力先を（HadoopそのもののWordCountと同じく）ファイルにしていた。
何故かと言うと、HBaseのテーブルに出力しようと思ったら、どういうテーブルレイアウトにすればいいか考えないといけないから。

という訳で、WordCountの出力結果を保持するテーブルはどういうレイアウトにすればいいか、いくつか案を考えてみた。
実際に分散環境で試している訳ではないので、どれがいいのかいまいち自信が持てないけれども(苦笑)

考えている中で気になったのは、HBaseのテーブルレイアウト（テーブル定義・設計書）って、どう書けばいいのか、ということ。
RDBなら論理項目名・物理項目名・データ型・制約といった辺りを表形式できれいに書くことが出来るが、HBaseではどう書けば分かりやすいだろう？
HBaseの場合、qualifier名は固定で決めておくことも出来るし、動的に入れることも出来るから難しい。
キー値だって複数の意味の値の複合になる場合が多そうだし。
データ型も、物理的にはバイナリー（バイト列）しか無いとしても、アプリケーションでどう使うのかは定義しておかないといけないし。

データのサンプルはCassandraの書き方でいいと思うんだけどな。
つまり、（テーブル名・）キー・列ファミリー名・qualifier・値を列とした表にする。

2010年8月
日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

ひしだまの変更履歴

ひしだまＨＰの更新履歴。 主にＴＲＰＧリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。

HBase0.89.20100726の変更点

HBaseでWordCountの為のテーブル設計

プロフィール

ログイン

カレンダー

バックナンバー

最新記事

カテゴリー

最新コメント

ブックマーク

goo blog お知らせ

goo blog おすすめ

ひしだまＨＰの更新履歴。
主にＴＲＰＧリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。