蒼の王座というサイトにApache Hadoop on Windows Azureの操作例その1という記事が載っているのを発見。
マイクロソフトがDryadを諦めてAzure上でHadoopを使えるようにすると聞いて どんな風になるのか興味があったんだけど、この記事のおかげで片鱗が分かった気がする。
円周率算出やWordCountのサンプルを実行するコマンドがcall hadoop.cmd jar hadoop-examples-0.20.203.1-SNAPSHOT.jar pi 16 10000000
call hadoop.cmd jar hadoop-examples-0.20.203.1-SNAPSHOT.jar wordcount /example/data/davinci.txt DaVinciAllTopWords
という具合。
やはりJavaだから、基本はUNIX版と同じ。
Hadoopのバージョンは0.20.203がベースっぽい。
ファイルシステムもHDFSであることは変わらないようだし、ブラウザーから参照する為の管理用ポートも50030・50070で、同じだ(笑)
Azureの「call」がDOSと同じ意味のコマンドなら、hadoop.cmdはバッチファイルかな。
UNIX版ならhadoopシェルを使って起動するところだから、さすがにCygwinを使ったりせず(笑)、ちゃんとWindows用に置き換えているわけだ。
Azure用のHadoop本体のソースはきっと公開されていないと思うけど、Windows向けに色々改造しているんだろうなぁ。
そもそも元のHadoopがWindowsで動かす際にCygwinを使う必要があったのは、内部でchmodやdfといったUNIXコマンドを呼び出しているからだと思う。他にも色々あるだろうけど、そういった所を全部洗い出して修正するのは、個人ではやる気がしないが^^;、マイクロソフトが本気を出せばちょろい事だよなーきっと。