1~100を合算するC言語のプログラムに続いて、Hadoopでも作ってみた。さすがに変数1個では無理だったが^^;
しかもこんなもんHadoopでやるなという格好の例だけどね!(爆)
数が超大きくなったらHadoopで分散させる意味もあるかもしれないが、そんなのintの範囲に収まらないし^^;
とは言え、SequenceFileを使ったサンプルとしては真面目に役立つかもしれない。かも。
プログラムの構造としては、SeqFileに1~100までのレコードを出力し、それをReducerで合算するだけ。
SeqFileも大きくなればHDFS上で分散してくれるはずなので、こういう使い方はアリだと思う。
合算部分はWordCountでよく出てくるIntSumReducerそのものが使える。
また、Mapperでは特に何もせずReducerにそのまま値を渡せばよい為、Mapperクラスそのものを指定している。(新API(Hadoop0.20以降)ではMapperクラスは入力をそのまま出力に渡すようになっている。旧APIのIdentityMapperに相当する。なお、HadoopではReduce処理だけしたくても必ずMap処理を経由する必要がある)
Mapperの入力やReducerの出力はTextFileだろうがSeqFileだろうがMapper/Reducerには関係ないので、Mapper/IntSumReducerクラスがWordCountと同様にそのまま使える。
入力をTextFileにしても構わなかったんだけど、そうするとMapperを自作してTextからIntWritableへ変換したりする必要があるので、TextFileにはしなかった。
同様に出力をTextFileにしても良かったんだけど、ファイルのまま中を見るならTextの方が便利だが、値を取得するならSeqFileでもいいかなーと。
ちなみに、jobにセットするOutputFormatをTextOutputFormatに変えるだけで、後は何も変えなくても自動的にTextFileになる。こういった疎結合の仕組みは楽でいいよね~。
(TextOutputFormatでは、キーや値がNullWritableやnullだと何も出力されない。今回はキーが常にNullWritableなので、値(がtoString()されたもの)だけが出力される)
(今回のプログラムでは、最後の結果読み込み部分をSeqFile用からTextFile用に変えないといけないけど)