2012年1月のブログ記事一覧-ひしだまの変更履歴

Java（HashMap版）WordCount

2012-01-21 21:17:26 | PG（分散処理）

各種言語によるWordCountの速度比較で、Awkで連想配列を使ったバージョンが速かったので、JavaでHashMapを使ったバージョンを作ってみた。
すると、予想通り（データ量が少ないので実行速度の差は僅差だが）Java版の方が最速になった。

意外だったのは、単独環境と分散環境でHadoopの処理方式がだいぶ異なるようだ、ということ。

160MB程度のデータ量では、分散させずに単独環境で実行した方が速い！
以前『Hadoop Conference Japan 2011 秋』で御徒町さんが名古屋の流通業の事例で「分散しないHadoop」で動かしている（単独環境で動かした方が速い、データ量が増えてきたら分散させる、プログラム修正は要らないし）という話をしていたけど、（データ量次第だろうけど）その通りのようだ＾＾；

また、ヒープサイズ不足で落ちるかどうかというのも異なる。
単独環境で落ちなかったからと言って分散環境で大丈夫とは言えないようなので、油断は禁物。
（環境が違えば扱えるデータ量や速度に違いが出るのは当然だけど。チューニングは本番環境でやらないと意味が無いってやつですね(苦笑)）

AsakusaFW版WordCount修正

2012-01-17 21:54:42 | PG（分散処理）

AsakusaFWの演算子リファレンスを見ていたら、抽出演算子（Extract）というのがあるのを発見！
Mapタイプで、入力1レコードに対し複数レコードの出力が出来る！
これが無いと思ってたからWordCountの単語分割をCoGroupでやってたんだよーorz
（batchapp版WordCountとWindGate版WordCountのサンプルを修正した）

これで、以前速度を測定したときに遅かったWordCountが速くなるかな？！
と期待したのだが、しかしほとんど変わらなかった…orz

でもログを見てみると、Combinerの出力件数が0件！（もっと早く気付けよ自分orz）
Summarized演算子にPARTIALを追加したら、劇的に速くなった。
（まだデフォルトではCombinerを使うようになっていないみたい）

AsakusaFWはepilogue.fileioというジョブを最後に実行するから、その所為でMapReduce APIを直接使ったWordCountには勝てないが、PigやHiveは上回ったし、いい感じの速度は出るようになったと思う。

Java7新文法

2012-01-14 21:18:14 | PG（Java）

ちょっと時間が出来たので、気になっていたJDK1.7の新文法をちょっとだけ試してみた。

try～catchを除けば、やはりちょっとした変更ばっかりという感じかな。

クラスライブラリーの変更は使ってみないと分からないので、当面気付かないだろう(苦笑)

Apache Hadoop on Windows Azureの片鱗

2012-01-10 21:55:55 | PG（分散処理）

蒼の王座というサイトにApache Hadoop on Windows Azureの操作例その１という記事が載っているのを発見。

マイクロソフトがDryadを諦めてAzure上でHadoopを使えるようにすると聞いてどんな風になるのか興味があったんだけど、この記事のおかげで片鱗が分かった気がする。

円周率算出やWordCountのサンプルを実行するコマンドが
call hadoop.cmd jar hadoop-examples-0.20.203.1-SNAPSHOT.jar pi 16 10000000 call hadoop.cmd jar hadoop-examples-0.20.203.1-SNAPSHOT.jar wordcount /example/data/davinci.txt DaVinciAllTopWords
という具合。

やはりJavaだから、基本はUNIX版と同じ。
Hadoopのバージョンは0.20.203がベースっぽい。
ファイルシステムもHDFSであることは変わらないようだし、ブラウザーから参照する為の管理用ポートも50030・50070で、同じだ(笑)
Azureの「call」がDOSと同じ意味のコマンドなら、hadoop.cmdはバッチファイルかな。
UNIX版ならhadoopシェルを使って起動するところだから、さすがにCygwinを使ったりせず(笑)、ちゃんとWindows用に置き換えているわけだ。

Azure用のHadoop本体のソースはきっと公開されていないと思うけど、Windows向けに色々改造しているんだろうなぁ。
そもそも元のHadoopがWindowsで動かす際にCygwinを使う必要があったのは、内部でchmodやdfといったUNIXコマンドを呼び出しているからだと思う。他にも色々あるだろうけど、そういった所を全部洗い出して修正するのは、個人ではやる気がしないが＾＾；、マイクロソフトが本気を出せばちょろい事だよなーきっと。

ダイスの目の散らばり方

2012-01-08 04:46:27 | TRPG

ダイス（さいころ）って、ある面とその真裏の面の数字を足したら必ず「面数+1」になるものだと思ってたんだけど。6面ダイスはまず間違いなくそうなってるよね。

ところが8面ダイスを見ていたら、どうもそうなっていない。つーか、手持ちのダイスを見てみたら、10面から20面のどれもそーなってないじゃん！

という訳で、どんな風に数値が並んでいたらいいのかちょっと考えてみた。

そもそも、隣り合った面の数値は近い方がいいのか、離れていた方がいいのか？
値が近い場合、例えば1が出そうな状態で1つずれたら、やはり小さい数のまま。
逆に値が離れている場合、1つずれたら大きい数になる。
前者だと、100面ダイスとかを考えたときに、1の周りが小さい数で埋まり100の周りが大きい数で埋まってる感じが顕著になるはず。ダイスの転がり方を制御できるような技能の持ち主にとっては狙いやすいダイスになってしまうので、よくないな。
という訳で、隣り合った数値は差が大きい方が良いようだ。

あとは、各面の値割り当ての全パターンを試してみて、隣り合った数値の差を計算してみればいい。
という訳で8面ダイスで計算してみた。左側が真裏との合計が一定数になるもので、右側はそういう縛りは無いもの。（この図は、8面ダイスを頂点から眺めて、真ん中で切ってスライドしたようなイメージ）

＼ 3／
 5× 7
／ 1＼
＼ 8／
 2× 4
／ 6＼

＼ 3／
 8× 6
／ 1＼
＼ 5／
 2× 4
／ 7＼

右側のパターンだと、1の周りは6,7,8で固まっている。分かりやすいな＾＾；
左側のパターンでも、1の周りは8以外の最大の数で固まっている。
隣り合った数値の散らばり具合を評価する式（隣の数値との差を2乗して全て合算した値が最大のものを抽出）がこれでいいのかどうか、ちょっと自信ないなぁ。

プロフィール

自己紹介: 自分のホームページの変更履歴を書くのに、ブログがちょうどいいかなーと思って登録しました。
TRPGリプレイの元ネタ集とかプログラミング技術メモ・自作ソフトやゲーム・音楽その他興味あることなど～。

カレンダー

前月

次月

バックナンバー

2024年12月

2024年09月

2024年03月

2023年12月

2023年10月

2023年09月

2023年06月

2023年05月

2023年03月

2023年01月

2022年12月

2022年09月

2022年03月

2021年12月

2021年09月

2021年03月

2021年02月

2020年12月

2020年11月

2020年09月

2020年06月

2020年05月

2020年03月

2019年12月

2019年11月

2019年09月

2019年06月

2019年03月

2018年12月

2018年10月

2018年09月

2018年08月

2018年07月

2018年06月

2018年04月

2018年02月

2018年01月

2017年12月

2017年11月

2017年09月

2017年08月

2017年07月

2017年06月

2017年05月

2017年04月

2017年01月

2016年12月

2016年11月

2016年10月

2016年09月

2016年07月

2016年05月

2016年04月

2016年03月

2016年02月

2016年01月

2015年12月

2015年11月

2015年10月

2015年09月

2015年08月

2015年07月

2015年06月

2015年05月

2015年04月

2015年03月

2015年02月

2015年01月

2014年12月

2014年11月

2014年10月

2014年09月

2014年08月

2014年07月

2014年06月

2014年05月

2014年04月

2014年03月

2014年02月

2014年01月

2013年12月

2013年11月

2013年10月

2013年09月

2013年08月

2013年07月

2013年06月

2013年05月

2013年04月

2013年01月

2012年12月

2012年11月

2012年10月

2012年09月

2012年08月

2012年07月

2012年06月

2012年05月

2012年04月

2012年03月

2012年02月

2012年01月

2011年12月

2011年11月

2011年10月

2011年09月

2011年08月

2011年07月

2011年06月

2011年05月

2011年04月

2011年03月

2011年02月

2011年01月

2010年12月

2010年11月

2010年10月

2010年09月

2010年08月

2010年07月

2010年06月

2010年05月

2010年04月

2010年03月

2010年02月

2010年01月

2009年12月

2009年10月

2009年09月

2009年07月

2009年06月

2009年05月

2009年04月

2009年03月

2009年02月

2009年01月

2008年12月

2008年11月

2008年10月

2008年09月

2008年08月

2008年07月

2008年06月

2008年05月

2008年04月

2008年03月

2008年02月

2008年01月

2007年12月

2007年11月

2007年10月

2007年09月

2007年08月

2007年07月

2007年06月

2007年05月

2007年04月

2007年03月

2007年02月

2007年01月

2006年12月

2006年11月

2006年10月

2006年09月

2006年08月

2006年07月

2006年06月

2006年05月

2006年04月

2006年03月

ブックマーク

goo: 最初はgoo

goo blog お知らせ

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】「カード」を集めていたことはある？
	訪問者数に応じてdポイント最大1,000pt当たる！
	dポイントが当たる！無料『毎日くじ』