ひしだまの変更履歴

ひしだまHPの更新履歴。
主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。

AsakusaFW版WordCount修正

2012-01-17 21:54:42 | PG(分散処理)

AsakusaFWの演算子リファレンスを見ていたら、抽出演算子(Extract)というのがあるのを発見!
Mapタイプで、入力1レコードに対し複数レコードの出力が出来る!
これが無いと思ってたからWordCountの単語分割をCoGroupでやってたんだよーorz
batchapp版WordCountWindGate版WordCountのサンプルを修正した)

これで、以前速度を測定したときに遅かったWordCountが速くなるかな?!
と期待したのだが、しかしほとんど変わらなかった…orz

でもログを見てみると、Combinerの出力件数が0件!(もっと早く気付けよ自分orz)
Summarized演算子にPARTIALを追加したら、劇的に速くなった。
(まだデフォルトではCombinerを使うようになっていないみたい)

AsakusaFWはepilogue.fileioというジョブを最後に実行するから、その所為でMapReduce APIを直接使ったWordCountには勝てないが、PigやHiveは上回ったし、いい感じの速度は出るようになったと思う。

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする