11月11日、
データサイエンティスト実践セミナー
Big Data University Tokyo Meetup #10
に行ってきた!
その内容をメモメモ
■グラフ 原田さん
・会社紹介
・自分のキャリアについて
情報提供:早いほうがいい
事業:早くても遅くてもだめ
視線→めがね:陳列棚の最適化
・データサイエンスの実務について
①案件のスケープと攻守を明確にすること
②業務のコストとインパクトを精査し、合意形成と納得感の醸成をすること
③戦力構想を可視化すること
・①案件のスケープと攻守を明確にすること
事業もにたりんぐ環境改善
(1)データ内容が標準化されていない
みんなが違うインターフェース→BIツール
(2)データ活用が高速化されていない
アドホック、定型:時間かかる
(3)データのアクセスがオープン化されていない
詐欺被害防止アルゴリズム開発
オレオレ詐欺に引っかかる人のモデリング
人材サービス採用サービス
マッチングアルゴリズム
新人:内定率が下がる→下がらないように
SPSSで
美容クロスセルアルゴリズム開発
サロンカテゴリ横断推奨アルゴリズム開発
動画アプリ閲覧数工場アルゴリズム開発
飲食店タイミング
二次会レコメンド
→イッキツウカンに出来る環境
②業務のコストとインパクト
施策
分析
運用
基盤
組織設計に影響
事業貢献度を出す
③戦力構想を可視化
データ分析の組織装着
事業課題設定力
分析テーマ設定力
分析力
分析力
データ抽象力
Hadoop
データ構造理解
サービス堂入力
型
専門組織型
システム部門型
カスタマWeb型
ハイブリッド型
データマップ
スキルマップ
スキルスコア
ツール:お金で買えるところ
VS
ルール:その会社
目標スコア
・最後に
赤の女王仮説
全力で走り続けなければならない
自ら機会を作り出し、機会によって自らを変えましょう
Q&A
・アジアのデータ分析技術
中国;日本は相手にされていない→上海にはデータサイエンス学科で大量の人
大学生は財布を出さない
百度マップに全部ついている。中国のほうが単価高い
・オムニチャネル:うまくいかない。予測、当たらない
流通業に対するとりくみ
予測へのアドバイス
流通:エリアマーケ
人間は衝動買いのほうがおおい
→オムニチャネルに流れる理由は?
楽天・アマゾンは、やれることを全てやっている
■データサイエンティスト組織の作り方を考える
SONPO 中林さん
・動画:あたらしいとりくみ
・自己紹介
・何をやっているか
何でデータサイエンスチームが必要なのか
事業戦略から、データ戦略への落としこみ
データサイエンティスト組織の立ちあげ
デジタルプラットフォームの構築
データ
AI:外部に積極活用&自社のコンピタンス
画像処理、音声認識は外
保険は中
ポイント:事業戦略にアラインした選択と集中
・デジタルプラットフォームのアーキテクチャ
サービス(API)・データサイエンティスト
アルゴリズム(AI 人工知能)
カタログ
データソース
・理想のアプローチ
スタートアップがデータサイエンスを武器に強くなる
データエクセレンスへの道程
創業期:データの構造やデータベースをしっかり作る
創業メンバーとデータに関わる戦略を議論し、項目洗い出す
サービス立ち上げ期
アーキテクチャを確立
装着・実装
Webサービス Python,Django,Tornade
忍耐期
データ構造を維持し続ける
データサイエンスできるチーム
成長期
CTDO(チーフてくのろじーでーたおふぃさー)
→このフェーズからはじめるときつい
・失敗パターン
データありきで始めてしまう
システムやデータベースがスパゲティ
必要なデータが取れていない
→時、すでに遅し
安定期
自動化→データエクセレンスカンパニー
・今からでも間に合うのか
データを事業戦略を推進する中核にすえる
トップの強力なスポンサーシップ
CDOの招聘
別会社を作ってすい寸するのも選択肢
・成功の秘訣:縦と横のハイブリッド・アプローチ
・データサイエンティスト組織に必要なメンバーと作り方
3つのスキルを持った組織
→ITエンジニアがデータサイエンティストを目指すには
ビジネス
データサイエンス
データエンジニア
4つめの新たなスキル システムエンジニア+α
・最後に
データサイエンティストのキャリアのあり方
CDO
どうしてコレをやっているのか
CDOから一緒に腕まくりして汗かいてもらいたいの一言
Q&A
・IT部門
連携できている
すみわけができている:既存のオペレーション IT
新規・データ:こちら
・横串を通す理由
譲るところと残すところを決める。
一元管理したいのはカタログ
■エンジニアから見た機械学習基盤
~プロジェクトとの始め方と価値ある基盤~
・自己紹介
・価値ある基盤とは何か
失敗(ゴミ箱化)するリスクを最小化するために
問題提起・リサーチ・検証・モデル化・テストを高速にまわし
小さな失敗を積みあげ、価値抽出を最大化する
そのためのチーム、基盤、データ
・企業で機械学習の導入を進めるハードル
・何をやっていいかが分からない(目的がない、目標がない)
・データが集められない
・サイクル化できない、分析結果が生きない
→データ基盤のごみ箱化
・何をやっていいかわからない(目的・、目標がない)
LOB:これからはIoT、コグニティブ、機械学習
社員A:何か言い出したな・・
→せいだいにこけます
・盛大にこけないために
目的・大きな目標・小さな目標・期間を設定
現状把握のためにデータの可視化
目的:現在の状況の把握
目標:データの可視化
目標:直近サービスログの可視化
期間:2ヶ月
・当たり前から始めましょう
現状把握がない状態から予測分析、認知は難しいことを念頭に
現状把握:何が起こったのか
予測分析:将来何が起こるのか
認知:次に来るべき最適なアクションを判別・共有・指示を行う
・データが集められない:
何のデータがある
協力が得られない
セキュリティポリシー
・インプットとオペレーションでは、オペレーション側に負担を寄せる
データカタログ:データ構造変更に追従できないのが悪
インプット:データの受け取りはキューを介して非構造で
オペレーショん:ETLで構造化・半構造化して格納
個人情報はマスキング
・ETLはどこでやるべきか
システム境界をkafka(キュー)で区切る→お互いの作業は非同期に行える
後方システムとの切り離し
結果:データが集めやすい
・セキュリティの切りわけはツールと役割単位で区切る
BIツール、LOB→データ触らせない
かふかでくぎる:Hadoopに行く前にマスキング
・サイクル化できない
データファーストの考えにならない
for humanからfor Machineへ
自動化して勝手に見てもらう。
マイクロサービス化
定常分析
事業側のライフサイクルに組み込みやすく
マイクロサービス化:使う側の都合で利用できる
分析処理のライフサイクルを構築
Notebookでチームビルド
・まとめ
データサイエンティスト実践セミナー
Big Data University Tokyo Meetup #10
に行ってきた!
その内容をメモメモ
■グラフ 原田さん
・会社紹介
・自分のキャリアについて
情報提供:早いほうがいい
事業:早くても遅くてもだめ
視線→めがね:陳列棚の最適化
・データサイエンスの実務について
①案件のスケープと攻守を明確にすること
②業務のコストとインパクトを精査し、合意形成と納得感の醸成をすること
③戦力構想を可視化すること
・①案件のスケープと攻守を明確にすること
事業もにたりんぐ環境改善
(1)データ内容が標準化されていない
みんなが違うインターフェース→BIツール
(2)データ活用が高速化されていない
アドホック、定型:時間かかる
(3)データのアクセスがオープン化されていない
詐欺被害防止アルゴリズム開発
オレオレ詐欺に引っかかる人のモデリング
人材サービス採用サービス
マッチングアルゴリズム
新人:内定率が下がる→下がらないように
SPSSで
美容クロスセルアルゴリズム開発
サロンカテゴリ横断推奨アルゴリズム開発
動画アプリ閲覧数工場アルゴリズム開発
飲食店タイミング
二次会レコメンド
→イッキツウカンに出来る環境
②業務のコストとインパクト
施策
分析
運用
基盤
組織設計に影響
事業貢献度を出す
③戦力構想を可視化
データ分析の組織装着
事業課題設定力
分析テーマ設定力
分析力
分析力
データ抽象力
Hadoop
データ構造理解
サービス堂入力
型
専門組織型
システム部門型
カスタマWeb型
ハイブリッド型
データマップ
スキルマップ
スキルスコア
ツール:お金で買えるところ
VS
ルール:その会社
目標スコア
・最後に
赤の女王仮説
全力で走り続けなければならない
自ら機会を作り出し、機会によって自らを変えましょう
Q&A
・アジアのデータ分析技術
中国;日本は相手にされていない→上海にはデータサイエンス学科で大量の人
大学生は財布を出さない
百度マップに全部ついている。中国のほうが単価高い
・オムニチャネル:うまくいかない。予測、当たらない
流通業に対するとりくみ
予測へのアドバイス
流通:エリアマーケ
人間は衝動買いのほうがおおい
→オムニチャネルに流れる理由は?
楽天・アマゾンは、やれることを全てやっている
■データサイエンティスト組織の作り方を考える
SONPO 中林さん
・動画:あたらしいとりくみ
・自己紹介
・何をやっているか
何でデータサイエンスチームが必要なのか
事業戦略から、データ戦略への落としこみ
データサイエンティスト組織の立ちあげ
デジタルプラットフォームの構築
データ
AI:外部に積極活用&自社のコンピタンス
画像処理、音声認識は外
保険は中
ポイント:事業戦略にアラインした選択と集中
・デジタルプラットフォームのアーキテクチャ
サービス(API)・データサイエンティスト
アルゴリズム(AI 人工知能)
カタログ
データソース
・理想のアプローチ
スタートアップがデータサイエンスを武器に強くなる
データエクセレンスへの道程
創業期:データの構造やデータベースをしっかり作る
創業メンバーとデータに関わる戦略を議論し、項目洗い出す
サービス立ち上げ期
アーキテクチャを確立
装着・実装
Webサービス Python,Django,Tornade
忍耐期
データ構造を維持し続ける
データサイエンスできるチーム
成長期
CTDO(チーフてくのろじーでーたおふぃさー)
→このフェーズからはじめるときつい
・失敗パターン
データありきで始めてしまう
システムやデータベースがスパゲティ
必要なデータが取れていない
→時、すでに遅し
安定期
自動化→データエクセレンスカンパニー
・今からでも間に合うのか
データを事業戦略を推進する中核にすえる
トップの強力なスポンサーシップ
CDOの招聘
別会社を作ってすい寸するのも選択肢
・成功の秘訣:縦と横のハイブリッド・アプローチ
・データサイエンティスト組織に必要なメンバーと作り方
3つのスキルを持った組織
→ITエンジニアがデータサイエンティストを目指すには
ビジネス
データサイエンス
データエンジニア
4つめの新たなスキル システムエンジニア+α
・最後に
データサイエンティストのキャリアのあり方
CDO
どうしてコレをやっているのか
CDOから一緒に腕まくりして汗かいてもらいたいの一言
Q&A
・IT部門
連携できている
すみわけができている:既存のオペレーション IT
新規・データ:こちら
・横串を通す理由
譲るところと残すところを決める。
一元管理したいのはカタログ
■エンジニアから見た機械学習基盤
~プロジェクトとの始め方と価値ある基盤~
・自己紹介
・価値ある基盤とは何か
失敗(ゴミ箱化)するリスクを最小化するために
問題提起・リサーチ・検証・モデル化・テストを高速にまわし
小さな失敗を積みあげ、価値抽出を最大化する
そのためのチーム、基盤、データ
・企業で機械学習の導入を進めるハードル
・何をやっていいかが分からない(目的がない、目標がない)
・データが集められない
・サイクル化できない、分析結果が生きない
→データ基盤のごみ箱化
・何をやっていいかわからない(目的・、目標がない)
LOB:これからはIoT、コグニティブ、機械学習
社員A:何か言い出したな・・
→せいだいにこけます
・盛大にこけないために
目的・大きな目標・小さな目標・期間を設定
現状把握のためにデータの可視化
目的:現在の状況の把握
目標:データの可視化
目標:直近サービスログの可視化
期間:2ヶ月
・当たり前から始めましょう
現状把握がない状態から予測分析、認知は難しいことを念頭に
現状把握:何が起こったのか
予測分析:将来何が起こるのか
認知:次に来るべき最適なアクションを判別・共有・指示を行う
・データが集められない:
何のデータがある
協力が得られない
セキュリティポリシー
・インプットとオペレーションでは、オペレーション側に負担を寄せる
データカタログ:データ構造変更に追従できないのが悪
インプット:データの受け取りはキューを介して非構造で
オペレーショん:ETLで構造化・半構造化して格納
個人情報はマスキング
・ETLはどこでやるべきか
システム境界をkafka(キュー)で区切る→お互いの作業は非同期に行える
後方システムとの切り離し
結果:データが集めやすい
・セキュリティの切りわけはツールと役割単位で区切る
BIツール、LOB→データ触らせない
かふかでくぎる:Hadoopに行く前にマスキング
・サイクル化できない
データファーストの考えにならない
for humanからfor Machineへ
自動化して勝手に見てもらう。
マイクロサービス化
定常分析
事業側のライフサイクルに組み込みやすく
マイクロサービス化:使う側の都合で利用できる
分析処理のライフサイクルを構築
Notebookでチームビルド
・まとめ