OSC2012で聞いて来た内容をメモメモ!
■Hadoop認定技術者が語る!Hadoopクラスタの推奨構成、推奨設定、運用のつぼ
Hadoop
キーは、分散ファイルシステム
もともとのコンセプトを知ること大事
GoogleにのGFS
構成されているサーバーが安価:信頼性が低いもの
→壊れることが前提の条件
HDFSの基礎
・既存OSのファイルシステム上で稼動できる
・ブロックごとに分かれる:デフォルト64M(実際には128も多い)
・レプリケーション3がおおい
1Tだと、3倍・・3Tでいいわけではない、もう少しいる
・大きいファイルを少ないノードで管理するのがとくい
1Mを2000台より2G1個のほうがいい
・シーケンシャルのほうがとくい
MapReduceに置き換えられる:レイテンシがある
RDBのようなものは向かない
Hbase(KVS)はレイテンシを低減している
大きいファイルはHDFS
・HDFSは数十Pでも問題ない
・ファイル追記は正式にはサポートされていない
・大きなファイルをブロックに分けるのがいい
・単一障害点が存在する
ネームノード
とくにfsimageとedits
バックアップいる
・RAIDだと性能落ちる→JBOD
・実は中間ファイルもできる:ディスク容量注意
ログも激しく書かれるので注意
・サーバー1台にHDD4~12台
・サーバー構成
ジョブトラッカー→タスクトラッカー
小規模構成(~20台)
ネームノードとジョブトラッカー同じサーバー
それ以上
ネームノードとジョブトラッカーサーバー分ける
・Hadoopのシステム拡張
5~8ノードくらいからはじめ
追加(3種類)
計算能力必要=CPU不足
大量データ=ハードディスク
配列処理(mapReduce)=メモリー追加
データノードとレプリカから、購入頻度がわかる
メモリ:1アイテムあたり200バイト消費
→ファイルの個数が重要
ファイルの個数が増えると、アイテム数が増え、
最悪、スワップが走る
・セカンダリネームノード
ネームノードのふぇ-ルオーバー先では「ない!」
ネームノードの負荷を軽減するために、ある処理が動く
・Hadoopの設定
1個1個BIOS画面を見て設定するのは、現実的でない
→BIOSの設定を吸出し、配布する必要
HPはフリーでそういうツールがある
HP SmartStart Scripting Toolkit
マウスで設定でいいわけではない。
・Ubuntu(Fedoraは推奨でない)
tar-ballからだと、少し操作方法が変わることも
・タスクトラッカー、MapReduceは障害があっても手順がある。
JobTrackerに障害が起こると、JVMタスクの動作は不安定
→ジョブのやり直しになってしまう
→FTクラスターでできる?
・スワップさせたら負け
・NTPを必ず設定、時刻大事
・Hadoopのパラメータを行うXMLファイル
→クラウディアさんのところにデフォルトあり
・DL180を使っているお客さん多い
・既存のDBからSQOOPを使って、Hadoopに入れることができる
・非定型は、FlumeでHadoopへ
■Hadoop認定技術者が語る!Hadoopクラスタの推奨構成、推奨設定、運用のつぼ
Hadoop
キーは、分散ファイルシステム
もともとのコンセプトを知ること大事
GoogleにのGFS
構成されているサーバーが安価:信頼性が低いもの
→壊れることが前提の条件
HDFSの基礎
・既存OSのファイルシステム上で稼動できる
・ブロックごとに分かれる:デフォルト64M(実際には128も多い)
・レプリケーション3がおおい
1Tだと、3倍・・3Tでいいわけではない、もう少しいる
・大きいファイルを少ないノードで管理するのがとくい
1Mを2000台より2G1個のほうがいい
・シーケンシャルのほうがとくい
MapReduceに置き換えられる:レイテンシがある
RDBのようなものは向かない
Hbase(KVS)はレイテンシを低減している
大きいファイルはHDFS
・HDFSは数十Pでも問題ない
・ファイル追記は正式にはサポートされていない
・大きなファイルをブロックに分けるのがいい
・単一障害点が存在する
ネームノード
とくにfsimageとedits
バックアップいる
・RAIDだと性能落ちる→JBOD
・実は中間ファイルもできる:ディスク容量注意
ログも激しく書かれるので注意
・サーバー1台にHDD4~12台
・サーバー構成
ジョブトラッカー→タスクトラッカー
小規模構成(~20台)
ネームノードとジョブトラッカー同じサーバー
それ以上
ネームノードとジョブトラッカーサーバー分ける
・Hadoopのシステム拡張
5~8ノードくらいからはじめ
追加(3種類)
計算能力必要=CPU不足
大量データ=ハードディスク
配列処理(mapReduce)=メモリー追加
データノードとレプリカから、購入頻度がわかる
メモリ:1アイテムあたり200バイト消費
→ファイルの個数が重要
ファイルの個数が増えると、アイテム数が増え、
最悪、スワップが走る
・セカンダリネームノード
ネームノードのふぇ-ルオーバー先では「ない!」
ネームノードの負荷を軽減するために、ある処理が動く
・Hadoopの設定
1個1個BIOS画面を見て設定するのは、現実的でない
→BIOSの設定を吸出し、配布する必要
HPはフリーでそういうツールがある
HP SmartStart Scripting Toolkit
マウスで設定でいいわけではない。
・Ubuntu(Fedoraは推奨でない)
tar-ballからだと、少し操作方法が変わることも
・タスクトラッカー、MapReduceは障害があっても手順がある。
JobTrackerに障害が起こると、JVMタスクの動作は不安定
→ジョブのやり直しになってしまう
→FTクラスターでできる?
・スワップさせたら負け
・NTPを必ず設定、時刻大事
・Hadoopのパラメータを行うXMLファイル
→クラウディアさんのところにデフォルトあり
・DL180を使っているお客さん多い
・既存のDBからSQOOPを使って、Hadoopに入れることができる
・非定型は、FlumeでHadoopへ