10月4日、Open for Data Summit Autumnに行ってきた!
その内容をメモメモ
<<ゼネラルセッション>>
■データサイエンティストの育成のための大学教育
-滋賀大学データサイエンス学部のモデル
・データサイエンス 価値創造のための新たな科学
データサイエンス(滋賀大モデル)
データアナリシス データエンジニアリング
新たな知見
価値創造
・データサイエンスのベン図
ハッキングスキル
数学+統計
現場の知識
(がベン図になっている)
DS=統計+計算機+領域分野の考えは一般的
・データサイエンス分野の重要性
・統計学部:日本では0
統計学での博士号:アメリカ 年間千人以上
日本:総研大 数人
・日本ではなぜ統計学部が出来なかったのか
(今は少子化で、各部を作るのが困難な点がある)
縦割り型、伝統、横串の方法論→横串のほうがイノベーションに貢献
・データサイエンスへの海外の動向→給料高い
アメリカ:データサイエンスを意識したカリキュラム
・データサイエンス分野の人材不足
ひとり立ち:年間5000人必要
→滋賀大学先行
・平成28年4月 産業競争力会議
・滋賀大学:教育と経済学部→分離融合
・滋賀大モデル
アメリカでは統計+計算機だけで就職できる
→日本では・・
コミュニケーション力を重視
・データサイエンス学部における育成人材像
逆π型
・ディプロマポリシー
データサイエンスの基礎的力量
コミュニケーションの力量
3つの人材像
データエンジニア
データアナリスト
データコンサルタント
1年:統計
3年
データマイニング
テキストマイニング
機械学習
ベイズ
(1個みえなかった。数量化?最適化?)
・PBL
様々な企業、地方公共団体と連携
・受験:こういう高校生に受けてほしい
数学2Bまでやっている
・まとめ
■コグニティブ・ビジネスの実現に向けて
・インサイトの価値
コグニティブ、クラウド 2つの柱
コグニティブ:認知・記憶
プロセス統合、→インサイトが引き出せないと
プロセスエコノミー→インサイトエコノミー
・データから価値を引き出すために必要なもの
データサイエンス
ダークデータ
ガバナンス
データの取り込み
持続性
コラボレーション
プラットフォーム
・データ活用の現場で起きている変化
セキュリティ
システムやツールによる分断を防ぐ
より多くのインテリジェンスをより早く
オープンソースやコミュニティ
・データ活用に携わるプロフェッショナルが変革をリード
ビジネスアナリスト
データエンジニア
データサイエンティスト
アプリケーション開発者
Chief Data Officer
・人々のコラボレーションが重要に
インプット
アナリティクス
アウトプット→インプットへ
ループが上手くまわせない
・IBM Watson DataWorksを発表
誰にでも使え
オープンな協業
・IBM Watson Dataworksプラットフォーム
・IBM DataFirst Method
データマネジメント
データレイク
データサイエンス
データ イン アクション
→ワークショップ形式でお話:メソドロジー
・3つ例
Runkeeper
RSGメディアシステム
デルハイツアメリカ
■データサイエンスが導くビジネス進化
効果改善、課題解決から新たな価値の創出へ
・リクルートライフスタイルのご紹介
ビジネスをリードするデータサイエンスとは
・リスティング広告の自動入札ツールを開発
整数計画問題を使っていた→大規模な
・データ分析の仕事は2種類ある
1.直接売上に貢献する分析(機械学習向き)
レコメンド、メールのターゲティング
2.間接的に貢献する分析
需要分析、競合分析
必要とされるスキル
ハッカー+現場→デンジャーゾーン!
・現在はカスタマーのインサイトの把握に注力
モデルの自動学習とモデルの陳腐化
モデル
決定木
サポートベクタマシン
ニューラルネット
で感度分析すると・・ みんな違うところを間違える
予測精度のもにたりんぐ+特徴量のモニタリング
重要度
アルゴリズム<<変数(データ)<<構造の理解
・数億円の利益がデータ分析から生まれる
・分析者のありたい姿
0から1を生み出す力・1から100に拡大できる力
分析を企画する能力
経験や勘とデータを統計的モデリングに融合できる
丁寧な分析やきちんとデータから仮説を考える
森内9段
・大規模数理計画が今後の武器になる
予測的アナリティクス:データに基づく予測
処方箋アナリティクス:
・Eメール送信対象カスタマとコンテンツの組み合わせの最適化
単純にマッチング→配信効果が特定のクライアントに偏る
制約条件
数理計画法
生産計画問題、ナーススケジューリング
→CPLEX
コンテンツ配信最適化
アクション予測モデル
実務の制約条件
天文学的な数の配信パターン
ビジネス上の制約条件を満たしつつ最適化
→数億の最適化
まとめる、近似解
→モデリングの見直し
全ユニモジュラ性を満たす
クラスタ化
■これからのデータサイエンティストとデータ・エンジニアに
必要な分析ツールとデザインパターンに基づく分析基盤の考え方
・ヘンリーフォード
1908年:T型フォード
自動車元年だったでしょうか?
・馬車の種類を知っていますか?
かぶりお
わごん
くーぺ
・自動車はすぐ壊れるし、ガソリンが亡くなったら走れない
馬車は・・
・次第に環境が整ってくる
都市
モータリゼーション革命
→個人の行動範囲が拡大
都市に郊外が出現
→近代経済
・1980年代までの業務処理
現在の業務処理 Web
ある日突然変わるのではなく、気づくと当たり前
電話交換手→デジタル交換機
駅の改札→電子カード
フィルム(コダック)→コダック倒産・デジタルカメラ→スマホ
Perceptional change 発想の転換
・IBM Watson DataWorks
プラットフォーム
エコシステム
メソッド
プラットフォーム
何人の人が関わる?
データ・エンジニア
データサイエンティスト
ビジネスアナリスト
アプリ開発者
・The PLATFORM
同じデータをみることができる
・レイヤアーキテクチャ
ツール
コラボレーション
データ解析&データ処理
データアクセス
データソース
・コンセプト
アナリストなど UIとコラボ 機械学習 データソースと
DSX ワークフロー データ処理基盤
・9月27日に発表があった
Watson Dataworksの進化
リファレンスモデル(デザインパターン)→ブループリント
2016Q4:種類が増えてくる:
ましんらーにんぐあずあさーびす
2017
・なぜ、Dataworks
共創
・データワークスは使われてるの?
パシュート
クラウドにリアルタイムで分析
MQTT+JSON,クラウド(くらうだんと)Node.js,Spark
先頭の人が抜けるタイミングの判定とか
ウェザーカンパニー
30億回APIコール/日
360ペタバイトのトラフィック量
ラムダアーキテクチャによる大規模データ処理
カサンドラをC++で実装
・データサイエンスエクスペリエンス
・データサイエンティスト育成へのコミット
2つの課題:スキル・ツール
MOOC BigdataUniversity.com
Meet Up
ツール:Data Scientist workbench
Rstudio,Jypterノートブック、Sparkも利用可能
datascientistworkbench.com
商用:セキュリティ、既存資産の連携
→データサインすエクスペリエンス
ぐぐると、とうろくできる
3つの柱
学ぶ
作る
共創する
コミュニティ
オープンソース
付加価値機能
→フリーミアム方式で提供
無償部分と有償部分
datascience.ibm.com
■分析基盤のデザイン
・自己紹介
・背景
昨今データ活用の重要性が説かれて久しく
IoT、機械学習、コグニティブ、AI、セキュリティ
→分析基盤の重要性
Apache Hadoop,Apache Spark→ビッグデータ基盤
・Hadoopが起こしたブレイクスルー
はるか昔
当時の考え方
非常に高価なHW 最適化された高速なCPU
少量のデータに複雑な処理 専用のHW,知識、技術、はやい限界
分散システム
Hadoopの登場
データも分散、処理も分散並列処理
分散データ HDFS
分散処理 MapReduce
安価なHWを横に並べる
・Hadoopのエコシステム化
Hadoopの複雑化
→より簡単に(MapReduceを書かないで)
MapReduce
YARN
HDFS
Ecosystemの形成
SQL文で分散処理Hive,SQLエンジン
機械学習(K-Meansなど)Mahout等
全文検索solr
グラフ処理 Gitaph,Hama
他システムからFlume,ETL
キューイング、スクープ(Sqoop)
大量書き込みHBase
技術要素
Dataソース:従来データ、ソーシャル、IoT
ETL系:
処理系:Hadoop(YARN)Spark,STORM,
操作系:SPSS,Jupyter
表示系:cognos,hue
連携系:えらすてぃっくさーち、らびっとMQ
管理系:あんばり、タスク管理
多様なデータを表現するためのOSSの利用
高速/高度な分析→えらすてぃっくさーち
他システム連携→RethinkDB,らびっとMQ
データ活用とエコシステムの問題
肥大化:ミドルウェアの乱立
→エコシステムで迷子になる、運用管理、習得
Hadoopエンジニア
Sparkの登場
大規模データのレイテンシ:インメモリ分散処理
ミドルウェアの乱立に対し、SparkにSQL,Streaming、GraphX,MLib内臓
機械学習をアドホックに
機械学習への取り組みの変化
流れているデータの扱い、アドホック、チームでの分析
データサイエンティストの需要の高まりと基盤
ノートブック I/F JupyterNotebook,ZeppelingNotebook
データと分析処理のナレッジか
・ユースケース
分析基盤の3つの用途
大規模バッチ
リアルタイム処理
アドホック分析
大規模バッチ
SparkSQL,fluentd
Spark,Hive
PostgreSQL,エラスティックサーチ→きばな
リアルタイム
MQTT→かふか(キューイング)、ナレッジ→SparkSQL
Spark(MLib)、STORM
RethinkDB
アドホック
Spark
Jupyter
OSS選定のさいも
主たる用途、補助的な用途またはチャレンジ
ビッグデータ基盤も育てていく
・Hybrid・クラウド化
今の流れ
アドホック
求められているのは:安価、よりはやく、高度な運用が不要
Hadoop/Spark界隈で、クラウド上で提供
IBMのBlueMix:使いたいときに払い出す
Jyupter notebookついてくる
CognitiveとOpenDataの活用
わとそんと自社、オープンデータ:Hadoop summitで
さらに統合された機械学習基盤 Data science Experienceの活用