CDH4が出たので、試しにインストール(だけ)してみた。
単独環境や擬似分散環境だけ作ってもHadoop(分散システム)的にはあまり嬉しくないんだけど^^;、最初はそこから試すものだろうし。
で、CDH4はClouderaのサイトにインストール手順がかなり詳しく書かれているので、特に迷う事は無かった。素晴らしい。
MRv1とYARNのどちらをインストールするかはユーザー次第なので、そこは迷うかもしれないが(爆)
HDFSコンポーネントは共通で、ジョブ(MapReduce)を動かすコンポーネント(デーモン)をMRv1とYARNのどちらにするかで決める必要がある。
(両方を同じマシンにインストールすること自体は出来るようだが、推奨されないみたい)
CDH4はHadoop2.0(旧Hadoop0.23)がベースなのに、インストールするとhadoop-0.20の名を冠したコンポーネントが入ってくるのでちょっと混乱しそうだけど^^;
擬似分散環境の構築は、CDH3のときより手順が増えている気がする。
HDFSをフォーマットした後のディレクトリー作成を手動でやらないといけない。
というか、HDFSのフォーマット自体、CDH3のときは自動でやってくれたような気がするが、方針が変わったのかな。
そうそう、MRv1の擬似分散環境では、ジョブが実行できなくてハマった…orz
なぜか環境変数HADOOP_MAPRED_HOMEの有無によって動作が変わる。不思議不思議。バグなのかなぁ?