OSC2011 Tokyo Springの「世界初のオープンソースETL Talend Open Studio」で聞いてきた話。
■オープンソースETL
ETL=Extract Transform Loading
データを抽出、変換、登録するもので、データウェアハウスの父インモンが使い始めた言葉。
当初は、DWH構築用だったが、今は、データ移行、バッチ処理、クラウド・オンプロミス連携、
名寄せ等、さまざまな用途に使う。
オープンソースのETL:Talend(タレンド) Open Studio
他のETLに比べた、オープンソースのメリット
導入コストが安い
拡張性
導入事例
マブチモーター
■Talend(タレンド) Open Studio
(ダウンロードサイトは、ホームページからいける)
・Eclipseのプラグインとして実現しているので、立ち上がるとEclipse
・GUIで、入力、出力を指定
DBは、oracle,MySQL,DB2,Access・・・いろいろ
Salesforceなどとも連携できる
・それらのテーブル、項目を指定し、関連付ける
GUIで行う
細かい指定は、Javaで書ける
・実行する
実は、GUIで指定した内容から、Javaのソースコードを自動生成して実行してる
バッチで走らす場合、このソース、jar?等をZIPで書き出す機能があるので、それを使う
■特徴など
・Javaのコードジェネレーター
・標準、オープンのテクノロジ
・多機能、柔軟
:
<処理性能に関する製品比較>
PowerCenterに次ぎ2位
(3位は、大きく離れて、某社製品)
■説明してなかったけど、シートにはあった話
・Salesforce.com用コンポーネント
クラウド間連携、クラウド⇔オンプレミス間連携
・Hadoop対応(Cloudera)
現行:Hive ELT&SQLパターン、Sqoop
書き漏れてる部分もある。
間違いがあったらごめん。