2010年4月24日のブログ記事一覧-ひしだまの変更履歴

Hadoop Cascading

2010-04-24 22:39:07 | PG（Java）

もともとはHadoopのみで偏差値を計算するサンプルを作ってみたかったんだけど、複数のステップを経るのが面倒だったので、Cascadingを試していた。
（ちなみに正式名称は「Cascading」なんだろうけど、「HTTP Server」並に固有名詞っぽくないので、検索には苦労する(苦笑)）

Hadoopのラッパー（ツール）としては他にPigやらHiveやらがあるみたいだけど。
Pigは新しい文法を覚えるのが面倒そうだったので却下。（決してあのブタが気に入らなかったからではない(爆)）
HiveはSQLっぽいらしいけど、SQLがDBを扱うのに対し、Hiveはあくまでファイルを扱う（はず）。ファイルをSQLで扱うのにも違和感あるからねぇ。
CascadingはJavaのライブラリーだけど、Map/Reduceは隠蔽するので、Hadoopのコーディングがそのまま使える訳ではないから、やはり覚えなければならない事があるのに変わりはない。
でもCascadingは結合を書けるのでやはり便利だ。と言っても、それを行うCoGroupが一番ややこしい対象なので、多少の慣れが必要ではあるが…(苦笑)

それに、最終的にはHBaseを扱いたいのだ。（Hiveが対応しているかどうかは知らないが、Cascadingは対応しているはず）

あと気になるのは、実際のMap/Reduceへ変換された際の実行効率かな。
これについてはPigもHiveも同様に気になるところだけど…。
そういう意味では、Cascadingの処理分岐・結合機能がHadoopに取り込まれるのが一番便利そうな気がする(笑)

2010年4月
日	月	火	水	木	金	土
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

ひしだまの変更履歴

ひしだまＨＰの更新履歴。 主にＴＲＰＧリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。

Hadoop Cascading

プロフィール

ログイン

カレンダー

バックナンバー

最新記事

カテゴリー

最新コメント

ブックマーク

goo blog お知らせ

goo blog おすすめ

ひしだまＨＰの更新履歴。
主にＴＲＰＧリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。