6月13日、
データ分析用次世代データフォーマットApache Arrow 勉強会
について聞いてきたのでメモ
■会場説明
・こっそりトイレ行って大丈夫。もどってきてくれれば
あすこらへんにいくとある
・会場はspeeeさん(拍手)
・内容
わんまんらいぶ
勉強会のつもりではなく、開発に参加してほしい
・知ってなくていいです
でてきたのは、去年の2月
知ってない人むきにはなす
わからなかったら、きいてください
・3つ質問
■本編
・ハッシュタグ #tokyo_arrow
・流れ
概要
詳細
開発参加
・概要
DataScience.rbで紹介
・Apache Arrow
データフォーマットの仕様とその使用を処理する実装
高いデータ交換コスト→低くしたい
重複した最適化実装→実装を共有したい
ちなみに:現状、早い実装はない・・・
・Arrowの背景
ビッグデータの分析
いろんなシステムが連携
コストゼロのシリアライズ・パース
Arrow;コストゼロの実現
そのまま使えるフォーマット
int8の配列→値を連続配置
:1バイトずつずらせば高速アクセス
Arrowのトレードオフ
サイズ圧縮よりシリアライズセロ
参考parquetはサイズ圧縮優先
・Arrowがある世界
各システムがサクサク連携
PySparkが高速化
Py-Javaのデータ交換コスト減
Java・Python・R以外も活躍
例;Ruby Lua Julia Go Rust
理由;艇コストでデータ交換処理
・今使える
Java ,Python,Ruby,Go・・・
python pyarrow → Ruby arrow
・Feather:RとPython用の同じような考えのフォーマット
・paqrquet:Hadoop界隈で使われる。Arrow形式にできる
・多次元配列
Arrowとしてはオプション機能
テンソルと呼んでいる
Javaではまだ。C++ではOK
・メタデータはプロトコルバッファ
・いみゅーたぶる
・バイト列は、リトルを強制
・列指向
・詳細
Wes McKinneyさんのスライド
https://www.slideshare.net/wesm
・スケールアウトインメモリ分析の標準フォーマットを目指すApache Arrow
・カラム型フォーマット:Arrowくん
メモリ上のフォーマットの場合
キャッシュに載った状態
パイプラインの実行
SIMD命令の活用
・データレイアウト:プリミティブデータ配列型
NULLをサポート
List Joe,NULL,mark
オフセット:0,3,3,7
値:joemark
ネストもできる
struct:配列で表現
Dense Union・スパースunion
・The Cplumnar ear
カラム指向いいよ
・メモリ管理
・ファイルデータフォーマット
スキーマ:どういう配列?
ディクショナリーバッチ
レコードバッチ 64K
・データ間通信
RPC:
IPC:
・ゼロコピー
型情報
ビット単位まで決める
・arrowの中で、flatbufferを使っている
C++でたいせつなもの
arrow::Buffer
データの表現
array,recordbatch,column,table
xtensor→C++用numpy
・事例:Ray MLフレームワーク バークレイ RISELab
Weld:GPU用
・開発に参加
みんながArrowを使わないと・・・データ交換できない
JIRA
メーリングリスト
バグレポートはJIRAにチケット→Githubにプルリクエスト
Groonga
Turbodbc
Red Data Tools:Rubyでデータ分析
Glibバインディングとして開発
OSS Gate東京ミートアップ 2017-6-19
・開発やりたい人!
(し~ん)
今日は、負けですね・・・会場提供はSpeeeさんでした!
データ分析用次世代データフォーマットApache Arrow 勉強会
について聞いてきたのでメモ
■会場説明
・こっそりトイレ行って大丈夫。もどってきてくれれば
あすこらへんにいくとある
・会場はspeeeさん(拍手)
・内容
わんまんらいぶ
勉強会のつもりではなく、開発に参加してほしい
・知ってなくていいです
でてきたのは、去年の2月
知ってない人むきにはなす
わからなかったら、きいてください
・3つ質問
■本編
・ハッシュタグ #tokyo_arrow
・流れ
概要
詳細
開発参加
・概要
DataScience.rbで紹介
・Apache Arrow
データフォーマットの仕様とその使用を処理する実装
高いデータ交換コスト→低くしたい
重複した最適化実装→実装を共有したい
ちなみに:現状、早い実装はない・・・
・Arrowの背景
ビッグデータの分析
いろんなシステムが連携
コストゼロのシリアライズ・パース
Arrow;コストゼロの実現
そのまま使えるフォーマット
int8の配列→値を連続配置
:1バイトずつずらせば高速アクセス
Arrowのトレードオフ
サイズ圧縮よりシリアライズセロ
参考parquetはサイズ圧縮優先
・Arrowがある世界
各システムがサクサク連携
PySparkが高速化
Py-Javaのデータ交換コスト減
Java・Python・R以外も活躍
例;Ruby Lua Julia Go Rust
理由;艇コストでデータ交換処理
・今使える
Java ,Python,Ruby,Go・・・
python pyarrow → Ruby arrow
・Feather:RとPython用の同じような考えのフォーマット
・paqrquet:Hadoop界隈で使われる。Arrow形式にできる
・多次元配列
Arrowとしてはオプション機能
テンソルと呼んでいる
Javaではまだ。C++ではOK
・メタデータはプロトコルバッファ
・いみゅーたぶる
・バイト列は、リトルを強制
・列指向
・詳細
Wes McKinneyさんのスライド
https://www.slideshare.net/wesm
・スケールアウトインメモリ分析の標準フォーマットを目指すApache Arrow
・カラム型フォーマット:Arrowくん
メモリ上のフォーマットの場合
キャッシュに載った状態
パイプラインの実行
SIMD命令の活用
・データレイアウト:プリミティブデータ配列型
NULLをサポート
List Joe,NULL,mark
オフセット:0,3,3,7
値:joemark
ネストもできる
struct:配列で表現
Dense Union・スパースunion
・The Cplumnar ear
カラム指向いいよ
・メモリ管理
・ファイルデータフォーマット
スキーマ:どういう配列?
ディクショナリーバッチ
レコードバッチ 64K
・データ間通信
RPC:
IPC:
・ゼロコピー
型情報
ビット単位まで決める
・arrowの中で、flatbufferを使っている
C++でたいせつなもの
arrow::Buffer
データの表現
array,recordbatch,column,table
xtensor→C++用numpy
・事例:Ray MLフレームワーク バークレイ RISELab
Weld:GPU用
・開発に参加
みんながArrowを使わないと・・・データ交換できない
JIRA
メーリングリスト
バグレポートはJIRAにチケット→Githubにプルリクエスト
Groonga
Turbodbc
Red Data Tools:Rubyでデータ分析
Glibバインディングとして開発
OSS Gate東京ミートアップ 2017-6-19
・開発やりたい人!
(し~ん)
今日は、負けですね・・・会場提供はSpeeeさんでした!
6月13日、東京中小企業投資育成株式会社のセミナー
ドイツの国家プロジェクト「インダストリー4.0」がIoTで世界の製造業をこう変える
をきいてきたのでメモメモ
(企業名とか出たところはまずそうなので、削除している)
■連絡事項
・資料確認
・講師略歴
■講師
・自己紹介
6大シンクタンクのひとつ
ドイツ、
東ヨーロッパ:人件費を落とす
プラハ→人件費が安かった
ワルシャワ
インダストリー4.0:先進国でも製造業
・仕事の半分はドイツ
ドイツ:16の連邦 めるけるさん:16州の偉い人
→各州にえらいひとがいる
ザクセン州:EV BMW I3など
・第4次産業革命:ドイツの考えを踏襲
→ドイツ発(アメリカでは通じない)
・キーワード;なぜ国家プロジェクトまでやってインダストリー4.0?
→アメリカ:トップIT企業を意識している
・ドイツ・アメリカ:接近して、大きな動き
アメリカ:政府ではなく、トップIT企業
ドイツ:ドイツ政府、産業界、大学・研究機関
→日本はどう考える?
山登りの図:日本は、どう動くべきか?
提案:標準化の方向へ
2016年 アメリカ・ドイツ提携
2016年 ドイツ・日本共同声明
2017年 CeBIT ハノーバー宣言(パートナー国として招へい)
(去年、アメリカ)
・ハノーバー宣言
日本は全力を挙げて、IoTで課題を解決する
キーワード:中堅中小企業
→一番支援しないといけない
いいことばっかりではない
・インダストリー4.0、IoT、AI
バズワード:打ち上げ花火?
研究会:政策・シンクタンク→人工知能の研究会
経営にどれだけ影響
産総研、ソニーの北野さん・・・
日本を変えようとしている:日立の中西さん
・インダストリー4.0のベース
コンピューティングパワー
30年前のコンピューターの計算速度
亀のスピードだとすると(0.1キロ/時)
今、どこまで早くなった
光の速度まで早くなった
・ITの力を使っている企業
アメリカのトップIT企業:ほかの人たちはレガシー
自動車産業
どうやったら対抗できるか
センサー
コンピューティングパワーXクラウドXセンサー
→これをつかって、レガシー企業が変わる
・ドイツの立場
コスト:安い人件費
→工場が移っていく
ドイツ:原発全廃→ドイツの電気代はやすくならない(クリーンエネルギー)
エネルギーは高い
生産効率を上げる。高付加価値の商品→カスタマイズ
多品種→品種を減らす:Tフォード:第二の産業革命
(第一の産業革命:石炭)
→品種は増やしていく、
マスカスタマイゼーション→多品種少量生産ではない!
ITを使って、大量生産と同じコストで、大量でも少量でもできる
・第4次産業革命:CPS
第三次とのちがい
フィジカルからサイバーにデータを移す→シミュレーション
ITサイドでデータを持っていく。
アディタスの工場:ベトナムの工場→スマート工場
BtoC:販売→サイバーフィジカル:次に何買うかわかる
在庫が減る
・インダストリー4.0の2つのプロセス
工場の中:サイバーフィジカルシステム
水平連携:自動車産業→バリューチェーン
まず、デジタル化、
つぎに水平方向
→EUへ、東ヨーロッパへ
プラハ:
1.ドイツ本気、チェコもドイツへ合わせてる
2.人件費上がっている:チェコも→4.0へ
・中国2025計画
労働コスト上昇、逃げられない
・ドイツ
スマート工場、バリューチェーン:中国
日本以上に重要な課題と考えている
・インダストリアルインターネット
ドイツそのもの
SAP
ボッシュ
・格差が広がる
どうやってデータを守るか
→オープン&クローズ戦略
ドイツの中小企業比率は日本と同じ
で、どう変わるんだろう・・・(^^;)
ドイツの国家プロジェクト「インダストリー4.0」がIoTで世界の製造業をこう変える
をきいてきたのでメモメモ
(企業名とか出たところはまずそうなので、削除している)
■連絡事項
・資料確認
・講師略歴
■講師
・自己紹介
6大シンクタンクのひとつ
ドイツ、
東ヨーロッパ:人件費を落とす
プラハ→人件費が安かった
ワルシャワ
インダストリー4.0:先進国でも製造業
・仕事の半分はドイツ
ドイツ:16の連邦 めるけるさん:16州の偉い人
→各州にえらいひとがいる
ザクセン州:EV BMW I3など
・第4次産業革命:ドイツの考えを踏襲
→ドイツ発(アメリカでは通じない)
・キーワード;なぜ国家プロジェクトまでやってインダストリー4.0?
→アメリカ:トップIT企業を意識している
・ドイツ・アメリカ:接近して、大きな動き
アメリカ:政府ではなく、トップIT企業
ドイツ:ドイツ政府、産業界、大学・研究機関
→日本はどう考える?
山登りの図:日本は、どう動くべきか?
提案:標準化の方向へ
2016年 アメリカ・ドイツ提携
2016年 ドイツ・日本共同声明
2017年 CeBIT ハノーバー宣言(パートナー国として招へい)
(去年、アメリカ)
・ハノーバー宣言
日本は全力を挙げて、IoTで課題を解決する
キーワード:中堅中小企業
→一番支援しないといけない
いいことばっかりではない
・インダストリー4.0、IoT、AI
バズワード:打ち上げ花火?
研究会:政策・シンクタンク→人工知能の研究会
経営にどれだけ影響
産総研、ソニーの北野さん・・・
日本を変えようとしている:日立の中西さん
・インダストリー4.0のベース
コンピューティングパワー
30年前のコンピューターの計算速度
亀のスピードだとすると(0.1キロ/時)
今、どこまで早くなった
光の速度まで早くなった
・ITの力を使っている企業
アメリカのトップIT企業:ほかの人たちはレガシー
自動車産業
どうやったら対抗できるか
センサー
コンピューティングパワーXクラウドXセンサー
→これをつかって、レガシー企業が変わる
・ドイツの立場
コスト:安い人件費
→工場が移っていく
ドイツ:原発全廃→ドイツの電気代はやすくならない(クリーンエネルギー)
エネルギーは高い
生産効率を上げる。高付加価値の商品→カスタマイズ
多品種→品種を減らす:Tフォード:第二の産業革命
(第一の産業革命:石炭)
→品種は増やしていく、
マスカスタマイゼーション→多品種少量生産ではない!
ITを使って、大量生産と同じコストで、大量でも少量でもできる
・第4次産業革命:CPS
第三次とのちがい
フィジカルからサイバーにデータを移す→シミュレーション
ITサイドでデータを持っていく。
アディタスの工場:ベトナムの工場→スマート工場
BtoC:販売→サイバーフィジカル:次に何買うかわかる
在庫が減る
・インダストリー4.0の2つのプロセス
工場の中:サイバーフィジカルシステム
水平連携:自動車産業→バリューチェーン
まず、デジタル化、
つぎに水平方向
→EUへ、東ヨーロッパへ
プラハ:
1.ドイツ本気、チェコもドイツへ合わせてる
2.人件費上がっている:チェコも→4.0へ
・中国2025計画
労働コスト上昇、逃げられない
・ドイツ
スマート工場、バリューチェーン:中国
日本以上に重要な課題と考えている
・インダストリアルインターネット
ドイツそのもの
SAP
ボッシュ
・格差が広がる
どうやってデータを守るか
→オープン&クローズ戦略
ドイツの中小企業比率は日本と同じ
で、どう変わるんだろう・・・(^^;)