ひしだまの変更履歴

ひしだまHPの更新履歴。
主にTRPGリプレイの元ネタ集、プログラミング技術メモと自作ソフト、好きなゲームや音楽です。

AZAREAの実行速度2

2013-01-06 05:28:13 | PG(分散処理)

AZAREAの実行速度のブログにコメントが付いていたので、それに合わせて4種類の集計を行うサンプルを修正したら、ちゃんと動いた!
GroupSortのコーディング方法に問題があった。1レコードずつ処理する別メソッドを使ったら大丈夫になった。
(このメソッドは自動生成されるソースには出てこないので、気付かなかった^^; OSSじゃないから、親クラスがどんなコードになっているのか調べることも出来ないしorz)

あと、AZAREAのTipsについても(メールで)指摘された事項があったので、一部を修正した。
(白抜き矢印と黒矢印でポップアップメニューの内容が異なるとは思わなかった^^;) 

AZAREAもAsakusa Frameworkも「大規模・複雑なアプリケーションの記述」を標榜しているけれども、「大規模」「複雑」ってどういう内容なのか、客観的な指標があるわけでもないので悩ましい。
実際に作られたアプリケーションが見られるといいんだけど、さすがに実業務のソースが公開されるわけも無いからなぁ(苦笑)


コメント (2)    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« AZAREA Tips | トップ | Eclipseプラグイン開発 »
最新の画像もっと見る

2 コメント

コメント日が  古い順  |   新しい順
修正してみました (ひしだま)
2013-01-12 18:18:41
アドバイスありがとうございます。
修正したところ、30秒ほど速くなり、HiveやCascadingと同程度の時間になりました。

なお、集計の種類毎にフローを分割する方式は、自分のリポジトリーの「azarea2」がそれに相当すると思います。
返信する
AZAREAの実行速度について (AZAREA-Clusterサポート担当)
2013-01-09 15:48:33
コメントへのご対応ありがとうございました。

AZAREAの実行速度の計測結果を拝見しましたが、少々遅いようなので調査してみました。

フロー中で3箇所GroupSortが使われていますが、可能なものはGroup(+Conversion)に変えることにより、実行速度が向上すると考えられます。
GroupSortはReducer側のみでグループ化を行うのに対し、GroupはMapper側でも可能な限りグループ化を行います。
従ってMapperからReducerへのデータ転送量が減少し、処理時間が短縮するはずです。

修正サンプルを以下に置きましたので、参考にして頂ければと思います。
https://s3-ap-northeast-1.amazonaws.com/azarea-cluster-jp/public/SalesFlow_2.txt

この辺りのノウハウも開発ガイドに記述するなどしてもう少し分かりやすくしたいと思います。


なお、処理が多くフロー図が煩雑になる場合は、エンティティフロークラスを分割するとシンプルにできます。
(アプリケーション全体のフロー図は相変わらず煩雑ですが、これは改善を検討中です)
「4種類の集計」の例では、集計の種類ごとに4つに分割するのがよいと思います。

エンティティフローはフレームワーク内で合成されるので、最適化結果は同じになります。
返信する

コメントを投稿

PG(分散処理)」カテゴリの最新記事