goo blog サービス終了のお知らせ 

ひしだまの変更履歴

ひしだまHPの更新履歴。
主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。

AsakusaFW0.2.4 WindGate

2011-12-22 23:39:34 | PG(分散処理)

当ブログはHadoopアドベントカレンダーの21日目として書いています。(本当は12/21に書きたかったけど、忘年会で酔っ払ってて…^^;)
Asakusaフレームワークの0.2.4が12/19にリリースされましたので、自分が注目した点を3点ばかり書きたいと思います。


まず、ドキュメントが増えました!

自分が使い始めた0.2.1の頃は、むしろドキュメントがある事に気付かず、一所懸命ソースを追っていて、後からドキュメントを知って「ちゃんと載ってるじゃん!」と愕然としたものです(爆)

今回はページも増えて、各章の見出しの大小も分かりやすくなりました。
まぁ、読む量が増えて大変になったと言えなくもないですが^^;


そして、WindGateがCSVファイルに対応しました!!

今まではAsakusaFWのファイルはSequenceFileがベースだったので、テキストファイルを扱おうと思ったら自分でImporterやInputFormatをコーディングする必要があり、ステップ数がかさんでいました。
今回、その辺りも自動生成されるようになったので、自分で記述する必要がある部分はごくわずかになりました。

しかもこのCSVパーサーが意外と高機能で、ダブルクォーテーションで囲まれた項目にも対応していますし、UTF-8以外の文字コードにすら対応しているようです。(Hadoopは(PigHiveも)基本的にUTF-8が前提)
ファイル名をデータとして取得することも出来ます。ファイル名に店舗コードとか日付とかを付けて識別する業務で使えるかも?


最後に、アーキタイプWindGateで作られるサンプルアプリがCSVファイルベースのものになりました!
(メソッド名・変数名やJUnitの構成も実用的なコーディングの参考になるよう変更されたみたいです)

0.2.1のアーキタイプbatchappはMySQLベースだったので、MySQLの設定をするか、MySQLを使わないように設定変更したりダミーのDMDLを作ったりする必要がありました。
が、今回のWindGate版はそのようなことをせず、そのまま(テストまで)実行できます。
また、0.2.3のWindGateはPostgreSQLベースだった模様です。

これで、AsakusaFWもかなり試しやすくなったのではないかと思います。まだ触ったことの無い人は、これを機会に見てみるとよいのではないでしょうか(笑)


コメント    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 第1回EMR勉強会のメモ | トップ | Hadoop Streaming(あるいはC... »
最新の画像もっと見る

コメントを投稿

PG(分散処理)」カテゴリの最新記事