当ブログはHadoopアドベントカレンダーの21日目として書いています。(本当は12/21に書きたかったけど、忘年会で酔っ払ってて…^^;)
Asakusaフレームワークの0.2.4が12/19にリリースされましたので、自分が注目した点を3点ばかり書きたいと思います。
まず、ドキュメントが増えました!
自分が使い始めた0.2.1の頃は、むしろドキュメントがある事に気付かず、一所懸命ソースを追っていて、後からドキュメントを知って「ちゃんと載ってるじゃん!」と愕然としたものです(爆)
今回はページも増えて、各章の見出しの大小も分かりやすくなりました。
まぁ、読む量が増えて大変になったと言えなくもないですが^^;
そして、WindGateがCSVファイルに対応しました!!
今まではAsakusaFWのファイルはSequenceFileがベースだったので、テキストファイルを扱おうと思ったら自分でImporterやInputFormatをコーディングする必要があり、ステップ数がかさんでいました。
今回、その辺りも自動生成されるようになったので、自分で記述する必要がある部分はごくわずかになりました。
しかもこのCSVパーサーが意外と高機能で、ダブルクォーテーションで囲まれた項目にも対応していますし、UTF-8以外の文字コードにすら対応しているようです。(Hadoopは(PigもHiveも)基本的にUTF-8が前提)
ファイル名をデータとして取得することも出来ます。ファイル名に店舗コードとか日付とかを付けて識別する業務で使えるかも?
最後に、アーキタイプWindGateで作られるサンプルアプリがCSVファイルベースのものになりました!
(メソッド名・変数名やJUnitの構成も実用的なコーディングの参考になるよう変更されたみたいです)
0.2.1のアーキタイプbatchappはMySQLベースだったので、MySQLの設定をするか、MySQLを使わないように設定変更したりダミーのDMDLを作ったりする必要がありました。
が、今回のWindGate版はそのようなことをせず、そのまま(テストまで)実行できます。
また、0.2.3のWindGateはPostgreSQLベースだった模様です。
これで、AsakusaFWもかなり試しやすくなったのではないかと思います。まだ触ったことの無い人は、これを機会に見てみるとよいのではないでしょうか(笑)
※コメント投稿者のブログIDはブログ作成者のみに通知されます