2012年3月18日のブログ記事一覧-ウィリアムのいたずらの、まちあるき、たべあるき

Hadoopクラスタの推奨構成、推奨設定、運用のつぼ

2012-03-18 20:28:01 | Weblog

ＯＳＣ２０１２で聞いて来た内容をメモメモ！

■Hadoop認定技術者が語る！Hadoopクラスタの推奨構成、推奨設定、運用のつぼ

Hadoop
　　キーは、分散ファイルシステム
　　もともとのコンセプトを知ること大事
　　　　　ＧｏｏｇｌｅにのＧＦＳ
　　　　　構成されているサーバーが安価：信頼性が低いもの
　　　　　　　→壊れることが前提の条件

ＨＤＦＳの基礎
・既存ＯＳのファイルシステム上で稼動できる
・ブロックごとに分かれる：デフォルト６４Ｍ（実際には１２８も多い）
・レプリケーション３がおおい
　　　１Ｔだと、３倍・・３Ｔでいいわけではない、もう少しいる

・大きいファイルを少ないノードで管理するのがとくい
　　　１Ｍを２０００台より２Ｇ１個のほうがいい
・シーケンシャルのほうがとくい
　　　ＭａｐＲｅｄｕｃｅに置き換えられる：レイテンシがある
　　　ＲＤＢのようなものは向かない
　　　Ｈｂａｓｅ（ＫＶＳ）はレイテンシを低減している
　　　大きいファイルはＨＤＦＳ
・ＨＤＦＳは数十Ｐでも問題ない
・ファイル追記は正式にはサポートされていない
・大きなファイルをブロックに分けるのがいい

・単一障害点が存在する
　　　ネームノード
　　　　　とくにfsimageとedits
　　　　　バックアップいる

・ＲＡＩＤだと性能落ちる→ＪＢＯＤ

・実は中間ファイルもできる：ディスク容量注意
　　　ログも激しく書かれるので注意

・サーバー１台にＨＤＤ４～１２台

・サーバー構成
　　ジョブトラッカー→タスクトラッカー
　　　小規模構成（～２０台）
　　　　　ネームノードとジョブトラッカー同じサーバー
　　　それ以上
　　　　　ネームノードとジョブトラッカーサーバー分ける

・Ｈａｄｏｏｐのシステム拡張
　　　５～８ノードくらいからはじめ
　　　追加（３種類）
　　　　　　計算能力必要＝ＣＰＵ不足
　　　　　　大量データ＝ハードディスク
　　　　　　配列処理（mapReduce)＝メモリー追加
　　　データノードとレプリカから、購入頻度がわかる
　　　メモリ：１アイテムあたり２００バイト消費
　　　　　　→ファイルの個数が重要
　　　　　　　ファイルの個数が増えると、アイテム数が増え、
　　　　　　　最悪、スワップが走る

・セカンダリネームノード
　　　ネームノードのふぇ－ルオーバー先では「ない！」
　　　ネームノードの負荷を軽減するために、ある処理が動く

・Ｈａｄｏｏｐの設定
　　　１個１個ＢＩＯＳ画面を見て設定するのは、現実的でない
　　　　→ＢＩＯＳの設定を吸出し、配布する必要
　　　　　ＨＰはフリーでそういうツールがある
　　　　　HP SmartStart Scripting Toolkit

　　　マウスで設定でいいわけではない。

・Ｕｂｕｎｔｕ（Fedoraは推奨でない）
　tar-ballからだと、少し操作方法が変わることも

・タスクトラッカー、MapReduceは障害があっても手順がある。
　JobTrackerに障害が起こると、ＪＶＭタスクの動作は不安定
　　　→ジョブのやり直しになってしまう
　　　　　　→ＦＴクラスターでできる？

・スワップさせたら負け
・ＮＴＰを必ず設定、時刻大事
・Ｈａｄｏｏｐのパラメータを行うＸＭＬファイル
　　　→クラウディアさんのところにデフォルトあり

・ＤＬ１８０を使っているお客さん多い
・既存のＤＢからＳＱＯＯＰを使って、Ｈａｄｏｏｐに入れることができる
・非定型は、FlumeでHadoopへ

ランキングに参加中。クリックして応援お願いします！

記事一覧 | 画像一覧 | フォロワー一覧 | フォトチャンネル一覧

日	月	火	水	木	金	土
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

アクセス
閲覧	1,827	PV
訪問者	880	IP
トータル
閲覧	34,871,890	PV
訪問者	8,702,155	IP
ランキング
日別	492	位
週別	504	位

	【PR】プロ直伝・dポイントをザクザクためる術
	【PR】安い＆大量の「訳あり商品」がヤバい！
	【コメント募集中】「ご飯をおわんに盛り付ける」何と言う？
	訪問者数に応じてdポイント最大1,000pt当たる！
	dポイントが当たる！無料『毎日くじ』

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

Hadoopクラスタの推奨構成、推奨設定、運用のつぼ

カレンダー

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

Hadoopクラスタの推奨構成、推奨設定、運用のつぼ

カレンダー

ログイン

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ