ひしだまの変更履歴

ひしだまHPの更新履歴。
主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。

HadoopでCSVファイルを集計するサンプル

2012-02-12 05:51:26 | PG(分散処理)

HadoopでCSVファイルの色々な項目をキーとして集計するサンプルを作ってみた。
Hadoopでというか、PigHiveAsakusaFWWindGate)・Cascadingでも作ってみたんだけど。

前回WordCountの速度比較ではAsakusaFWは残念な結果になっていたけれど、今回はAsakusaFWの実行速度が一番速かった。
AsakusaFWの複数ジョブにまたがる最適化が効いた感じ。素晴らしい!(ステマw) 

ちなみにWindGateではローカルにファイルが出力できるんだけど、UNIX上で動かしたのに、なぜか改行コードがCRLFになってた…。
なもんで、他プロダクトの結果とdiffをとっても一致しない(苦笑)
おかげで改行コードCRを無視する「diff --strip-trailing-cr」というオプションがある事を知ったよw

あと、Hiveはパラメーター渡しが出来ないとかカンマ区切りでの出力を直接はサポートしてないとか、細かいところが気になる(苦笑)
簡単に対応できそうな気がするんだけどな。カンマ区切りとか、需要無いんだろうか?
select文は今までのRDBMSの知識で直感的に書けるから、対話型で使うには便利。やはりバッチで使おうとするのが間違いか。
対話型で使うなら、パラメーター渡しの必要なんてないし。

コメント (1)
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする