Hadoopソースコードリーディング第7回に参加しましたので、感想をば。
今回の主なテーマは11/8~9にニューヨークで開催されたHadoop World NYC 2011の報告。→Togetter
(他の人のメモ→落合さん(発表者)、johtaniさん、akanumaさん、マッキーさん、snuffkinさん)
最初はNTTデータの下垣さんから。
今年は1400人くらい参加があったが、内75.7%が初参加、でも71.9%がHadoop利用者(36.8%が1年未満)だったそうで。平均ノード数は120。
アメリカでもまだこれから使うって人が多いんだねぇ。それと、ノード数多いな^^;
変わった話では、Big Dataのファンドが登場したとか。ビッグデータを生成する企業に投資するんだそうで。へえ、そんなものが…!
HadoopとRDBMSを組み合わせるといった観点から、RDBMSが改めて活気付くという予想もあるとか。
あと、ウォルトディズニー(のインターネットビジネス)がHadoop使ってるなんて話は初めて聞いた。
2009年から利用開始というならそこそこ前からだけど、40台って、会社の規模から想像すると、なんだか少ないような^^;
全体の傾向としてはHBaseの利用が増えているとか(最近HBaseの話題を聞いてなかったような気がするけど、向こうでは増えてるんだ…)、大手ベンダーの参加が目立っているとか。
たいていのベンダーはハードウェアとかBIツールとか、自分の力を生かした分野で参入しているけど、Oracleだけはほぼ全分野に進出しているみたいで、すごいなーw
次にNTTデータの政谷さん。
NYCで日本からNTTデータ(政谷さん自身)とNTTコミュニケーションズさんが発表したらしく、その内容。
PostgreSQLとの連携の紹介で、各Mapタスクの中でバルクロードするっていう仕組みが興味深かった。RDBMS側もボトルネックにならないよう分散させるようにするみたい。
それから、富士通と提携して作った、HDFS APIを使ってアクセスできるストレージとか。
MapRに似ているらしい。
ここで話が変わってClouderaの嶋内さん。Hadoopの設定のお話。
設定ミスはClouderaへの問い合わせ(チケット)の2%だそうで。一般的なソフトウェアは単純ミスが大半だから、2%というのは珍しいんだとか。
しかしHadoopは設定をミスっても影響がすぐ出るとは限らず、ログをちょっと調べたくらいじゃ分からん、と。
という訳で、よく見られるエラーメッセージとその対策について。ここら辺は細かい話だったけど有益な情報が多かったので、ぜひ資料を公開して欲しいです。(公開されました→資料)
ちなみに「Too Many Fetch-Failures」はまさにこの前見かけたよ^^;
最後はAcroquest Technologyの阪本さん・落合さんからの報告。
R言語とHadoopの融合。R言語とは、統計解析向けプログラミング言語らしい。すみません、それは初めて知りましたorz
R言語からHadoopを使えるようにしたらしい。世の中そういうもの多いねw ScalaからHadoopなんてものもあるし。ただ、R言語は統計的な分析なら上手く書けるらしい。
Hadoopを使った衛星画像解析。タスクの中からC言語のライブラリーを呼ぶようにしたらしい。既存資産をJavaで書き直すことなく使えるようにした例。
VMwareの、Hadoopをクラウドに展開する話。クラウドというか、仮想化の事らしいが。
一般的にHadoopと仮想化は相性が悪いと言われていて、まぁ普通はSANやNASでディスクを共有するから。しかしHadoopはローカルディスクを使う(仮想化(物理配置を気にしない)に矛盾する)。
という話の解決策として、ハイブリッドストレージというのを出してきたらしい。
全般的に、Hadoopをインフラとして使う(Hadoopと他の言語やフレームワーク・ライブラリーを組み合わせて使う)傾向が感じられたとのこと。
あ、最後に。扇子とピザとジュースご馳走様でした。あとお土産にバッジ1個いただきました(笑)
(今回はアフリカの動物も酔うという実から作られたお酒が強烈だったようで^^;)