AsakusaFW0.2.4 WindGate

2011-12-22 23:39:34 | PG（分散処理）

当ブログはHadoopアドベントカレンダーの21日目として書いています。（本当は12/21に書きたかったけど、忘年会で酔っ払ってて…＾＾；）
Asakusaフレームワークの0.2.4が12/19にリリースされましたので、自分が注目した点を3点ばかり書きたいと思います。

まず、ドキュメントが増えました！

自分が使い始めた0.2.1の頃は、むしろドキュメントがある事に気付かず、一所懸命ソースを追っていて、後からドキュメントを知って「ちゃんと載ってるじゃん！」と愕然としたものです(爆)

今回はページも増えて、各章の見出しの大小も分かりやすくなりました。
まぁ、読む量が増えて大変になったと言えなくもないですが＾＾；

そして、WindGateがCSVファイルに対応しました！！

今まではAsakusaFWのファイルはSequenceFileがベースだったので、テキストファイルを扱おうと思ったら自分でImporterやInputFormatをコーディングする必要があり、ステップ数がかさんでいました。
今回、その辺りも自動生成されるようになったので、自分で記述する必要がある部分はごくわずかになりました。

しかもこのCSVパーサーが意外と高機能で、ダブルクォーテーションで囲まれた項目にも対応していますし、UTF-8以外の文字コードにすら対応しているようです。（Hadoopは（PigもHiveも）基本的にUTF-8が前提）
ファイル名をデータとして取得することも出来ます。ファイル名に店舗コードとか日付とかを付けて識別する業務で使えるかも？

最後に、アーキタイプWindGateで作られるサンプルアプリがCSVファイルベースのものになりました！
（メソッド名・変数名やJUnitの構成も実用的なコーディングの参考になるよう変更されたみたいです）

0.2.1のアーキタイプbatchappはMySQLベースだったので、MySQLの設定をするか、MySQLを使わないように設定変更したりダミーのDMDLを作ったりする必要がありました。
が、今回のWindGate版はそのようなことをせず、そのまま（テストまで）実行できます。
また、0.2.3のWindGateはPostgreSQLベースだった模様です。

これで、AsakusaFWもかなり試しやすくなったのではないかと思います。まだ触ったことの無い人は、これを機会に見てみるとよいのではないでしょうか(笑)

2025年4月
日	月	火	水	木	金	土
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

ひしだまの変更履歴

ひしだまＨＰの更新履歴。 主にＴＲＰＧリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。

AsakusaFW0.2.4 WindGate

このブログの人気記事

コメントを投稿

「PG（分散処理）」カテゴリの最新記事

プロフィール

ログイン

カレンダー

バックナンバー

最新記事

カテゴリー

最新コメント

ブックマーク

goo blog お知らせ

goo blog おすすめ

ひしだまＨＰの更新履歴。
主にＴＲＰＧリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。