ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

データサイエンティスト実践セミナ(BDU Tokyo Meetup10)に行ってきた!

2016-11-13 11:23:06 | AI・BigData
11月11日、
データサイエンティスト実践セミナー
Big Data University Tokyo Meetup #10
に行ってきた!
その内容をメモメモ



■グラフ 原田さん

・会社紹介
・自分のキャリアについて
 情報提供:早いほうがいい
 事業:早くても遅くてもだめ
  視線→めがね:陳列棚の最適化

・データサイエンスの実務について
①案件のスケープと攻守を明確にすること
②業務のコストとインパクトを精査し、合意形成と納得感の醸成をすること
③戦力構想を可視化すること


・①案件のスケープと攻守を明確にすること
 事業もにたりんぐ環境改善
  (1)データ内容が標準化されていない
   みんなが違うインターフェース→BIツール
  (2)データ活用が高速化されていない
   アドホック、定型:時間かかる
  (3)データのアクセスがオープン化されていない

 詐欺被害防止アルゴリズム開発
  オレオレ詐欺に引っかかる人のモデリング

 人材サービス採用サービス
  マッチングアルゴリズム
  新人:内定率が下がる→下がらないように
  SPSSで

 美容クロスセルアルゴリズム開発
  サロンカテゴリ横断推奨アルゴリズム開発

 動画アプリ閲覧数工場アルゴリズム開発

 飲食店タイミング
  二次会レコメンド

 →イッキツウカンに出来る環境

②業務のコストとインパクト
 施策
 分析
 運用
 基盤

 組織設計に影響
 事業貢献度を出す


③戦力構想を可視化
  データ分析の組織装着
   事業課題設定力
   分析テーマ設定力
   分析力
    分析力
    データ抽象力
    Hadoop
    データ構造理解
   サービス堂入力

  型
   専門組織型
   システム部門型
   カスタマWeb型
   ハイブリッド型

  データマップ
  スキルマップ
  スキルスコア

  ツール:お金で買えるところ
    VS
  ルール:その会社

 目標スコア

・最後に
 赤の女王仮説
  全力で走り続けなければならない
 自ら機会を作り出し、機会によって自らを変えましょう

Q&A
・アジアのデータ分析技術
 中国;日本は相手にされていない→上海にはデータサイエンス学科で大量の人
 大学生は財布を出さない
 百度マップに全部ついている。中国のほうが単価高い

・オムニチャネル:うまくいかない。予測、当たらない
 流通業に対するとりくみ
 予測へのアドバイス

 流通:エリアマーケ
 人間は衝動買いのほうがおおい
  →オムニチャネルに流れる理由は?

 楽天・アマゾンは、やれることを全てやっている




■データサイエンティスト組織の作り方を考える
 SONPO 中林さん
・動画:あたらしいとりくみ
・自己紹介
・何をやっているか
  何でデータサイエンスチームが必要なのか
   事業戦略から、データ戦略への落としこみ
   データサイエンティスト組織の立ちあげ
   デジタルプラットフォームの構築
   データ
   AI:外部に積極活用&自社のコンピタンス
     画像処理、音声認識は外
     保険は中
   ポイント:事業戦略にアラインした選択と集中

・デジタルプラットフォームのアーキテクチャ
  サービス(API)・データサイエンティスト

  アルゴリズム(AI 人工知能)
  カタログ
  データソース

・理想のアプローチ
  スタートアップがデータサイエンスを武器に強くなる
   データエクセレンスへの道程
    創業期:データの構造やデータベースをしっかり作る
      創業メンバーとデータに関わる戦略を議論し、項目洗い出す
    サービス立ち上げ期
      アーキテクチャを確立
      装着・実装
      Webサービス Python,Django,Tornade
    忍耐期
      データ構造を維持し続ける
      データサイエンスできるチーム
    成長期
      CTDO(チーフてくのろじーでーたおふぃさー)
      →このフェーズからはじめるときつい

・失敗パターン
  データありきで始めてしまう
  システムやデータベースがスパゲティ
  必要なデータが取れていない
 →時、すでに遅し

    安定期
      自動化→データエクセレンスカンパニー

・今からでも間に合うのか
  データを事業戦略を推進する中核にすえる
  トップの強力なスポンサーシップ
    CDOの招聘
    別会社を作ってすい寸するのも選択肢

・成功の秘訣:縦と横のハイブリッド・アプローチ

・データサイエンティスト組織に必要なメンバーと作り方
  3つのスキルを持った組織
    →ITエンジニアがデータサイエンティストを目指すには
   ビジネス
   データサイエンス
   データエンジニア

  4つめの新たなスキル システムエンジニア+α

・最後に
  データサイエンティストのキャリアのあり方
   CDO
  どうしてコレをやっているのか
   CDOから一緒に腕まくりして汗かいてもらいたいの一言

Q&A
・IT部門
 連携できている
 すみわけができている:既存のオペレーション IT
 新規・データ:こちら

・横串を通す理由
  譲るところと残すところを決める。
   一元管理したいのはカタログ




■エンジニアから見た機械学習基盤
 ~プロジェクトとの始め方と価値ある基盤~

・自己紹介
・価値ある基盤とは何か
  失敗(ゴミ箱化)するリスクを最小化するために
  問題提起・リサーチ・検証・モデル化・テストを高速にまわし
  小さな失敗を積みあげ、価値抽出を最大化する
  そのためのチーム、基盤、データ

・企業で機械学習の導入を進めるハードル
 ・何をやっていいかが分からない(目的がない、目標がない)
 ・データが集められない
 ・サイクル化できない、分析結果が生きない
 →データ基盤のごみ箱化

・何をやっていいかわからない(目的・、目標がない)
  LOB:これからはIoT、コグニティブ、機械学習
  社員A:何か言い出したな・・
 →せいだいにこけます

・盛大にこけないために
 目的・大きな目標・小さな目標・期間を設定
  現状把握のためにデータの可視化
   目的:現在の状況の把握
   目標:データの可視化
   目標:直近サービスログの可視化
   期間:2ヶ月

・当たり前から始めましょう
  現状把握がない状態から予測分析、認知は難しいことを念頭に
    現状把握:何が起こったのか
    予測分析:将来何が起こるのか
    認知:次に来るべき最適なアクションを判別・共有・指示を行う


・データが集められない:
  何のデータがある
  協力が得られない
  セキュリティポリシー

・インプットとオペレーションでは、オペレーション側に負担を寄せる
  データカタログ:データ構造変更に追従できないのが悪
   インプット:データの受け取りはキューを介して非構造で
   オペレーショん:ETLで構造化・半構造化して格納
           個人情報はマスキング

・ETLはどこでやるべきか
  システム境界をkafka(キュー)で区切る→お互いの作業は非同期に行える
  後方システムとの切り離し

 結果:データが集めやすい

・セキュリティの切りわけはツールと役割単位で区切る
  BIツール、LOB→データ触らせない
  かふかでくぎる:Hadoopに行く前にマスキング

・サイクル化できない
  データファーストの考えにならない
 for humanからfor Machineへ
  自動化して勝手に見てもらう。
  マイクロサービス化

 定常分析

 事業側のライフサイクルに組み込みやすく

 マイクロサービス化:使う側の都合で利用できる

 分析処理のライフサイクルを構築

 Notebookでチームビルド

・まとめ

この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« ポケモンGOで東北復興 | トップ | Google翻訳が、かしこくなっ... »
最新の画像もっと見る

AI・BigData」カテゴリの最新記事