AsakusaFWの演算子リファレンスを見ていたら、抽出演算子(Extract)というのがあるのを発見!
Mapタイプで、入力1レコードに対し複数レコードの出力が出来る!
これが無いと思ってたからWordCountの単語分割をCoGroupでやってたんだよーorz
(batchapp版WordCountとWindGate版WordCountのサンプルを修正した)
これで、以前速度を測定したときに遅かったWordCountが速くなるかな?!
と期待したのだが、しかしほとんど変わらなかった…orz
でもログを見てみると、Combinerの出力件数が0件!(もっと早く気付けよ自分orz)
Summarized演算子にPARTIALを追加したら、劇的に速くなった。
(まだデフォルトではCombinerを使うようになっていないみたい)
AsakusaFWはepilogue.fileioというジョブを最後に実行するから、その所為でMapReduce APIを直接使ったWordCountには勝てないが、PigやHiveは上回ったし、いい感じの速度は出るようになったと思う。