Hadoop Hack Night 2に行ってきたので、その感想など。
(今どきノートに手書きでメモしてるもんだから、汚くて読めないので まとめは出来ません(なんて無意味な!(爆)))
(のっけから「Hadoop使ったことある人~?」って聞かれると、手を挙げていいのかどうか迷う…試しに擬似分散環境を動かしているだけだから…)
ヤフーの吉田さんて、「Hadoopで、かんたん分散処理」を書いた人だそうで。
Hadoopという言葉を初めて聞いてネットで調べていた頃、この記事を見てHadoopに衝撃と本格的な興味を持ったんだよな~。
(自分がなぜHadoopに興味を持ったのかについては、いずれ書きたいネタのひとつ。まぁ誰の役に立つわけでもないだろうけど(苦笑))
ABYSSでは、開発環境としてEclipseでMockitoとJUnit・MRUnitを使っているらしい。でもDistributed Cacheはテストできないから、Eclipse Pluginを使っているんだとか。
実際にJavaで作ろうとしたら避けて通れないところだから、今後の参考になりそうだ。
Hadoop with Securityでは、Kerberos認証が槍玉に上がっていた。自分はその辺り全然知らないんだが、古いものらしい。
そもそも企業内部で使うならこういったセキュリティーはそんなに重要かなぁと思っていたら、同様の質問があった。
クラスターは大規模なほど効率がいい→複数企業で共同で使えばいい→セキュリティーが必要
これは納得。
あと、ユーザー認証できればユーザー毎の課金が出来るというのも、副次的な効果として確かに有用かも。
それから、セキュリティーにどう関連しているのか分からないが、Oozieの名前が出てきた。(ウージーと呼ばれていた)
一回、どうやって使うのかデモを見てみたいなー。GUIでフローが描けるわけじゃないよね?
リッテルの清田さんからは、HadoopとRDBMSの比較など。
RDBMSと比較するならKVSじゃないの?と思ったけど、そういう話が出るということは、最近じゃそういう比較をされだしている?
Hadoopの使い方の例として、ストレージ代わりにHDFSを使用しているとか。ノードを追加すれば容量が増やせる。
自分は主にバッチフレームワークとして考えていたので、単純にそういう使い方も出来るんだなーと、ちょっと目からウロコ。
でもそういえば、ストレージとして使う場合の転送速度とかについては話題が出なかったなぁ…。HDFSって分散させるし複製作るし、ちょっと遅そうな気もするけど。
これは話題に挙がっていたけれども、個人で複数のPCを用意するとか難しいので、(特に速度面を)自分で試せないところが難点。なので実際に使ってみてどうかという話はとても貴重。
RDBMSとKVS・Hadoopの使い分けの図も分かりやすかった。自分も使うならそういうイメージかなーと思う。
(インフラのブラックボックス・複雑さの説明として、水道インフラの例も分かりやすかった)
ところで、CAP定理を「証明された」と言い切っていたな(笑)
これは「証明されていないからCAP原理だ」と言っている人もいて、常々ちょっと疑問だったんだが、どちらが正しいのやら^^;
まぁ、「証明された」と言っている側が、その根拠となる論文でも示せばケリが着くけどw
それと、ハードウェア構成について一例。QuadCore CPUのDataNode 3台で、数十GBを20分で処理。
…ハードウェアにも詳しくないのでよく分からないけど、3台でも意外といけるということかな?
別の質問には、20万円くらいのPCでも…という回答。値段よりはスペックを質問した方がいいのかも。
Hadoopの使途としては、やはりログとか検索インデックス作成や分析の用途が多いようだ。まぁYahooとか図書館ではね(笑)
自分はいわゆる基幹業務に使えないかと考えているんだけど、どうなんだろうなぁ。
あと、「コモディティとは言っても」(コモディティ神話の打破)がいい質問だった。
自分も他人に説明するときは「安いPCサーバーをたくさん並べて…」とか説明しそうだし(汗)
コモディティの意味は象本にも書いてあるそうだが…p.44のことかな。
「システムが安く作れる」ということよりも、少ない台数で始めて後から追加できる、という説明の方が重要そうだね。同感。
最後に、Hadoopとは関係ないんだけど。Yahooの建物なんて初めて入ったよ!
入館証の二次元バーコードを読ませないとゲートを出入りできないのな。各階全てにゲートがあるようだった。
1階から出ようとして出られず2階から出たんだけど、エスカレーターを降りてる途中で1階の出ようとした場所が見えて、なんだかレベルの低いカードしか持ってなくて遠回りせざるをえない序盤のメタルギアみたいな気分だったw