Pigで独自のファイルを読み書きするStorageクラスを作ってみた。
題材はHiveのSerDeと同じく、WordCountのWritableをデータに持つシーケンスファイルの読み書き。
HiveのSerDeはデータの読み書きの実装方法がけっこう独自な感じだったが、PigのStoreFunc・LoadFuncは素のHadoopのOutputFormat・InputFormatがそのまま出てきている感じ。MapReduceを直に書いたことがある人だったら理解は早そう。
Pigで独自のファイルを読み書きするStorageクラスを作ってみた。
題材はHiveのSerDeと同じく、WordCountのWritableをデータに持つシーケンスファイルの読み書き。
HiveのSerDeはデータの読み書きの実装方法がけっこう独自な感じだったが、PigのStoreFunc・LoadFuncは素のHadoopのOutputFormat・InputFormatがそのまま出てきている感じ。MapReduceを直に書いたことがある人だったら理解は早そう。