2012年8月のブログ記事一覧-ひしだまの変更履歴

AsakusaFW0.4.0の新機能

2012-08-31 01:39:50 | PG（分散処理）

Asakusa Frameworkの0.4.0が出たので、例によって独断と偏見で見所を書いてみるｗ（→追記版）
→0.4.0のリリース情報・リリースノート

まず、前のバージョン番号は0.2.6で、今回0.2系から0.4に上がった。
これは、AsakusaFWが洗濯機DSLに大進化を遂げた！からではなく、逆に、大きな変化は無い→安定してきている→1.0に近付いた、ということらしい。
なので、（ThunderGateやWindGateの追加といったレベルの）大きな変化は無いが、しかしトピックは色々ある＾＾；

●対応プラットフォームの拡張
対応するHadoopは、Apache Hadoopは0.20.205の他に1.0.3、CDH3はCDH3u5となった。
そして、MapR（Greenplum MR1.2）やEMR（Amazon Elastic MapReduce）Hadoop1.0.3も加わった！

●シミュレーションモード（ドライラン）の新設
ドライランは、0.4RCで使っていて一番便利だった機能！！実際のMapReduceは実行せず、設定が正しいかどうかだけ確認する動作モード。
これが無いと、MapReduce処理本体を何十分も流した後で、WindGate-JDBCの設定ミスやRDBの起動忘れorzで落ちたら、また最初から何十分もかけて再実行になる＞＜
事前にドライランで実行することにより設定を確認できるのは、とても助かった。

●アプリケーションの検証機能の新設
別マシンに同一Asakusaアプリをインストールしてyaess-ssh等で連携する場合、同一バージョンのAsakusaアプリがどうかが検証されるようになった。

●モジュールの取り込み（フラグメント）
依存するjarファイルをまとめて1つのjarファイルを作成する機能が用意された。
自作ユーティリティーとかがAsakusaプロジェクトと分かれている場合、自作ユーティリティーを「モジュール」としてAsakusaプロジェクトの成果物であるjarファイルに統合することが出来る。

●拡張モジュール・レガシーモジュール
FileImporter/FileExporter（Direct I/Oより昔のHDFS入出力用クラス）とかcleanerとかexperimental.shは、今回標準から削除となり、拡張モジュール（extension module）になった。
（標準から削除になったそれらのモジュールをレガシーモジュールと呼ぶ）
拡張モジュールはデフォルトでは組み込まれないが、プラグインとして組み込むことは出来る。
プラグインの拡張方法も、（YAESS/WindGate等の機能別でなく）統一された。

●Direct I/O・ジョブキュー
Direct I/Oやジョブキューは、前回まではexperimental（実験機能）だったが、正式機能となった。

●Direct I/Oの機能追加
Direct I/Oの出力ファイル名パターンにワイルドカード「*」が使えるようになった！
今までは指定されたパターンに応じて出力ファイルの分割/統合が行われていた（その為のMapReduceが実行された）が、Sqoopで読み込むような場合は分割されたままでよい為、無駄な処理だった。
「*」を指定するとMapReduceで出力されたそのままの状態になるので、その分速い。

それと、SequenceFileFormatでCODEC（圧縮形式）が指定できるようになった。これにより、ファイル毎に圧縮方法が指定できることになる。

●WindGateのプロファイルでの環境変数使用
WindGateのプロファイル（ASAKUSA_HOME/windgate/profile/*.properties）内のほぼ全ての箇所で環境変数が使えるようになった。
（今までは一部でしか使えなかったようだ）

●Direct I/Oコマンドラインツール・ユーティリティーツール
Direct I/OのbasePath/ファイル名パターンを指定してファイル一覧を表示したりファイルを削除したりするツールが用意された。
また、指定された日数より以前のHDFS上のファイルを削除できるツールも加わった。

●Jinrikisha0.2.1
AsakusaFW0.4.0に合わせてJinrikishaもバージョンアップ。違いはデフォルトでAsakusaFW0.4が対象になったくらいかもしれないが＾＾；
一番大きなのは、ロゴが出来たことかなｗロゴに合わせてホームページの色も変えられてるしｗ

今回加わった機能（の一部）のユースケースとして、EMRを使う例を考えてみる。

HadoopクライアントにAsakusa一式（YAESS）をデプロイ（配置・インストール）し、そこからEMR上のAsakusaアプリを起動するといった構成が考えられる。（EMRには、bootstrapでS3からAsakusaアプリをデプロイする）

YAESSには「yaess-ssh」という機能があり、クライアントからYEASSを起動して、SSH経由で別マシン上のYAESS・Asakusaアプリ（Hadoop）を実行することが出来る。
あるいは、WindGateで別サーバー上のRDBにアクセスすることが出来る。
★これらの接続用設定が上手くいっているかどうかを、ドライランで確認することが出来る。

また、接続先のIPアドレスはAsakusaFWのプロパティーファイルで指定する必要があるが、EMRは毎回IPアドレスが変わる。そこで、EMR CLI等のツールでIPアドレスを取得して環境変数に入れ、プロパティーファイルには環境変数だけ記述しておけば、プロパティーファイルを毎回書き換える必要は無い。
★WindGateのプロファイルで環境変数が指定できるようになった。

また、この構成ではクライアントとEMRでAsakusaアプリ一式を別々にデプロイすることになるが、このバージョンが異なっていたら不整合が起きるかも知れない。（ステージ構成もビルドの度に変わる可能性があるし）
★アプリケーションの検証機能により、バージョンが違っていたら起動できない。

こうして見ると、必要な機能が着々と実装されている感じがするかもｗ

那由多の軌跡

2012-08-18 22:38:36 | ゲーム

ファルコムの軌跡シリーズの最新作『那由多の軌跡』。
前回が「零」だったので、今回は大きい数にしたのが見え見え。さすがに無量大数とか不可思議だと変だから、那由多くらいに留めたのかねｗ

とはいえ、今回はステージクリア制のアクションゲーム。どちらかと言えば最近のイースに近いかな。スーパーマリオとかワルキューレの冒険とかにも通じるものがある。
しかしバランスはかなり練られていて、簡単すぎず、難しすぎず。（上手い人ならぬるいって言うのかもしれないけど…）
この手のアクションは難しいと先に進めないし、簡単すぎてもつまらないので、バランスは大事。
那由多の軌跡は定められたノルマをクリアすればボーナスがつくが、それをクリアしなくてもストーリーは先に進められるし、後から戻って何度でもやり直せるので親切。
色々なアクションがとれるが、ぶら下がれる奴がなかなか面白かった。ボスも弱点を見つけるまでがなかなか(笑)

一週目のラストで妙な登場人物が増えてて「なんだこりゃ？」と思ったら、二週目ではその人物達がもっと早く登場し、新しいサブシナリオになっているのがなかなか良かった。
他にも敵に捕らわれていたキャラが二週目では自力で脱出するので余計なステージをやる必要が無いとか、色々考えられて感心した。

世界観は軌跡シリーズと同じはずだけど、前作とはほぼ全くつながりが無い。前作を知らない人でも問題なく入れる利点がある反面、知っている人にはちょっと寂しいかも。とは言え、世界観・歴史的にはかなり重要な話になっている。
「この世界には果てがある」っていう話が前作までに出ていればなお良かったんだけどねぇ。

HBase本

2012-08-06 23:26:57 | PG（分散処理）

玉川竜司さんが翻訳された『HBase』をshiumachiさん経由でオライリー様から献本していただきました。ありがとうございます！

献本していただいたから言うわけじゃないですが(笑)、これはHBaseを使う人にとっては必須の本ですねｗ　どの章を見ても、「あ、この情報は要るよね！」というものばかり。
また、HBaseを使わない人でも最初の2章は大変勉強になるので、機会があったら見ておくと良いのではないかと思います。

以下、章ごとに興味深かった点を挙げてみます。

■■■1章 HBaseの紹介
2年くらい前にHBaseやCassandraといったNoSQL の勉強会が盛り上がったが、その頃に聞かれた（そして最近はあまり聞かれなくなった）RDBMSとの比較やCAP定理等の話題がまとめられている。

■■■2章インストール
章のタイトルからして、既にインストールして使っている人は読み飛ばしそうだが、ちょっと待って。
HBaseのインストール方法自体はアーカイブをダウンロードして展開するだけなので、半ページしか書かれてない(笑)
この章の大半は、サーバーやネットワーク等の推奨スペックや設定で占められている。
（OSの特徴はHBaseとは無関係に有用な話題だｗ）
特に、メモリーが多ければよいというのものではない、というのは目から鱗だった。

■■■3～5章クライアントAPI
クライアント、つまりプログラムで使用するJava APIについての説明。
全体的に、メソッドの紹介と共に、どの様に使うべきか／関連して何を設定しておくべきかの説明がされているので、HBaseのプログラムを書く人・テーブル設計をする人は絶対目を通しておくべき。
（なお、11.7項にもクライアントAPIに関するチューニングポイントが書かれている）

3章ではPut・Get・Delete・Scanといった基本的なAPIについて、使い方だけでなく、内部の仕組みにも触れられているのが良い。
すなわち、サーバー側でどのような順序でどのように処理されて、エラーはどのように返されるか。これはメソッドのシグネチャを見ただけでは分からない事なので、非常に役立つ。
なお、PutやGetで個別にロックを指定することが出来るが、その説明は3.4「行ロック」の項で説明されている。

4章ではもう少し高度なAPIである、フィルター・カウンター・コプロセッサー・HTableのプール・コネクション等について説明されている。

5章はHTableDescriptionやHBaseAdminなど、管理用のAPI。
スキーマを定義する際の設計上の注意点なども書かれている。
（そして、スキーマ定義のメソッド名が誤解を招きやすいという事まで説明されているｗ）

■■■6章クライアントツール
REST・Thrift・Avroの紹介や、PHPからHBaseを扱う例。
また、Hive・Pig・Cascadingといった“バッチ”クライアントについても紹介されている。
その他に、HBase ShellやWeb UIの詳しい使い方も載っている。

■■■7章 MapReduceプログラミング
自分がNoSQL（KVS）を勉強していた頃にHBaseに最も興味を持っていた理由が、HBaseはMapReduceでバッチ処理が出来るというところ。
7章ではHBaseを対象としたMapReduceプログラムについて説明されている。（TableOutputCommitterはやっぱりダミーだったのか！ｗ）
（HBaseを使うMapReduceでは投機的実行はしない方がいいんだそうだ。知らなかった。p.313）

ただ、バルクロードについてはここでは書かれておらず、12.2.3項に書かれている。

■■■8章 HBaseのアーキテクチャ
HBaseの内部動作・構成について書かれている。これぞHBase本の真髄・中核といった感じ(笑)

■■■9章高度な利用方法
キーの設計方法や注意すべき点（バージョニング・タイムスタンプ）や、拡張ライブラリー（セカンダリーインデックスとかトランザクションとかブルームフィルターとか）が紹介されている。

■■■10章クラスターのモニタリング
監視ツールであるGangliaとの連携方法とかJMXの使い方とか。

■■■11章パフォーマンスチューニング
HBaseのチューニング方法のみならず、負荷テストの方法（YSCBの実行方法とか）も書かれている。

■■■12章クラスターの管理方法
ノードの追加・削除といった運用方法の他、データを別クラスターへコピーする方法やクラスター間でレプリケーションする方法が紹介されている。
また、『HADOOP HACKS』でも紹介されているImport/Exportツールやバルクロードについても書かれている。

■■■付録
付録ですら見といた方がいいってのは、（分厚い本なので）困りものだ＾＾；

付録AはHBaseのプロパティーの説明。

付録BはHBase0.92～94の簡単な相違点。自分の知識は0.89止まりだったので、こういうのが有り難い。

付録FはHBaseとBigtableの違いの紹介。HBaseはBigtableを元にしているだけあって、こういうのはちょっと気になるよね(笑)

付録D・Gは、Apache HBaseを拡張したディストリビューションであるCDHやAmazon EMRの紹介。さすがにMapRの紹介は入ってないが＾＾；（あと、HDFSに代わるGlusterFSとかも一時期話題に挙がっていたと思うのだが、入ってないなー）

ふう、盛りだくさんで読むの大変だわ(笑)

P.S.
自分がHBaseについてメモを書いていたとき、「qualifier」を何と訳せばいいのか困ったけど、「列修飾子」で決定かな。

プロフィール

自己紹介: 自分のホームページの変更履歴を書くのに、ブログがちょうどいいかなーと思って登録しました。
TRPGリプレイの元ネタ集とかプログラミング技術メモ・自作ソフトやゲーム・音楽その他興味あることなど～。

カレンダー

前月

次月

バックナンバー

2024年12月

2024年09月

2024年03月

2023年12月

2023年10月

2023年09月

2023年06月

2023年05月

2023年03月

2023年01月

2022年12月

2022年09月

2022年03月

2021年12月

2021年09月

2021年03月

2021年02月

2020年12月

2020年11月

2020年09月

2020年06月

2020年05月

2020年03月

2019年12月

2019年11月

2019年09月

2019年06月

2019年03月

2018年12月

2018年10月

2018年09月

2018年08月

2018年07月

2018年06月

2018年04月

2018年02月

2018年01月

2017年12月

2017年11月

2017年09月

2017年08月

2017年07月

2017年06月

2017年05月

2017年04月

2017年01月

2016年12月

2016年11月

2016年10月

2016年09月

2016年07月

2016年05月

2016年04月

2016年03月

2016年02月

2016年01月

2015年12月

2015年11月

2015年10月

2015年09月

2015年08月

2015年07月

2015年06月

2015年05月

2015年04月

2015年03月

2015年02月

2015年01月

2014年12月

2014年11月

2014年10月

2014年09月

2014年08月

2014年07月

2014年06月

2014年05月

2014年04月

2014年03月

2014年02月

2014年01月

2013年12月

2013年11月

2013年10月

2013年09月

2013年08月

2013年07月

2013年06月

2013年05月

2013年04月

2013年01月

2012年12月

2012年11月

2012年10月

2012年09月

2012年08月

2012年07月

2012年06月

2012年05月

2012年04月

2012年03月

2012年02月

2012年01月

2011年12月

2011年11月

2011年10月

2011年09月

2011年08月

2011年07月

2011年06月

2011年05月

2011年04月

2011年03月

2011年02月

2011年01月

2010年12月

2010年11月

2010年10月

2010年09月

2010年08月

2010年07月

2010年06月

2010年05月

2010年04月

2010年03月

2010年02月

2010年01月

2009年12月

2009年10月

2009年09月

2009年07月

2009年06月

2009年05月

2009年04月

2009年03月

2009年02月

2009年01月

2008年12月

2008年11月

2008年10月

2008年09月

2008年08月

2008年07月

2008年06月

2008年05月

2008年04月

2008年03月

2008年02月

2008年01月

2007年12月

2007年11月

2007年10月

2007年09月

2007年08月

2007年07月

2007年06月

2007年05月

2007年04月

2007年03月

2007年02月

2007年01月

2006年12月

2006年11月

2006年10月

2006年09月

2006年08月

2006年07月

2006年06月

2006年05月

2006年04月

2006年03月

ブックマーク

goo: 最初はgoo

goo blog お知らせ

	【PR】プロ直伝・dポイントをザクザクためる術
	【PR】安い＆大量の「訳あり商品」がヤバい！
	【コメント募集中】「納豆」を食べる際のこだわりは？
	訪問者数に応じてdポイント最大1,000pt当たる！
	dポイントが当たる！無料『毎日くじ』