ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

ビッグデータの技術開発、3つのポイント

2014-02-11 12:18:35 | AI・BigData
 昨日、トップエスイー「ビッグデータイブニングセミナー」に行ってきた!
 この前は、日立だったけど、今度はNEC
 その内容をメモメモ




実世界ビッグデータからの価値創造
~NECにおけるビッグデータ分析・活用への取り組み~

第一部(技術紹介)
・実世界ビッグデータ
 ネット上のサービス、作られるコンテンツからビッグデータ
 NECは、カメラ、センサーの実世界データを中心に
  →社会ソリューション

・価値を高める技術開発の3つのポイント

・事例(映像、でーたまいにんぐ)

■実世界ビッグデータ活用

・海底ケーブル:地震とか
・宇宙;センシング
・クルマのGPS
・人の動き:動線分析マーケティング
・人の細胞:体の中もセンサー
・お金の動き:破綻したときの波及

■データの山を宝の山に変える技術
・見えているデータは、氷山の一角

  センシング

・埋もれていたデータが表出
 でも、一見するところ、石ころばかり

  データ解析 (リスク検出など)

・埋もれていたデータを宝の山

【ポイント】機械学習
  観測データ
    ↓
  モデル・規則性
    ↓
  意思決定・アクション

・時系列データ:将来予測/異常検知
・区別する面を見つけ出す

規則性をいかに見つけるか
  →多次元で複雑なデータ

■技術開発のポイント
(1)人間には見えないものまで見える化する
(2)人間に捉えるのは困難な規則性・関係も見つけ出す
(3)人間の能力を超えた規模までスケールさせる

■事例1:映像解析(映像ビッグデータ)
・都市や施設の安全を見守る
  不審な行動
・顔認証から映像監視へ
  顔の向き
  顔の位置
  顔画像の質
・ブラックリスト照合

・顔認証とは
  DBのどれに当たるかを見つける
    →顔の向き、メガネかける、年をとるなど・・
  顔のどの辺をみると、識別できる?→ロバストに

・解像度の問題
 超解像:機械学習(学習型超解像)

映像ビッグデータ
 ・顔認証
 ・超解像
 ・広域人物追跡

■事例2
・データマイニング
 異常検知
  大規模物理システム
  SIAT インバリアント解析技術
  →センサーの意味知らなくても監視できる
  センサーの相関関係をみる
  崩れたときに問題

・電力需要予測
  異種混合学習
 従来
  (A)回帰分析を単純適用
  (B)人手でデータを7分割、各パターンで回帰分析
     →場合わけをうまくやって・・
 →異種混合学習を使うと、一発で
  因子化漸近ベイズ推論
 試行錯誤が回避できる:自動化できる
→商品需要予測

 大規模にすけーるできる

Q&A

ドメインエキスパート・分析エキスパート
→規則が見つかった、それでいいのか?
  →結果を生かすのは、ドメインエキスパート

処理時間がかかる→クラスタくんで、学習に何日とか

----------

第二部

分析プロセスマネジメント

■ビッグデータ分析の業務フロー
→ビッグデータ分析は、「仮説検証による価値発見」
1.仮説検証による価値発見
・目的の明確化
・仮説立案
・仮説検証
2.システム構築
3.運用保守

コーディネーター:プロマネ、
  ドメインエキスパートとかぶる

■仮説検証による価値発見フェーズですべてがきまる
 →真の課題を見つける:分析者側が提案
  スケジュール:分析者が提案
  費用:分析者側から提案する

■目的の明確化
・課題は何か、目的は何か?
  →分析をする人間が話を聞く
・顧客価値を聞く
・顧客がどれくらい困っているか数値化する
・使えそうなデータをがんばって探る
・顧客の知識の見極め
・何が大事そうかを当たりつける
  解釈可能性:要因を知る

【例】
コンビニ
・失敗談1
 分析を実施する上で必要な事前知識がかけていた
  →よく当たる店と、当たらない店
   実は、当たらないのは店ではなく、棚だった・・・
  →業務知識は不可欠!
   データの取り方を知っていなければならない
     お客様に聞けば、分かることも
   お客様業務を勉強する
     本よむ、おたくにきく、ホームページ
     Wikipediaをよむだけでもちがう

・失敗談2
 あんまり意味ないお店の予測
  →在庫の機会損失を知りたかった
  →小さいお店をやってね!
 お客様の価値を勝手に想像してはいけない
  →確定させておくところ
  →奇妙な目的もある

・失敗談3
 評価指標が適切ではない
   平均誤差率→大きくはずさない誤差
 数値化することに意味があることも
 インパクトが大きいのは?
 適合率(正確さ)、再現率(網羅性)

ケーススタディー
・オムツとビール
  お客様の価値に結びつくかは、よりけり。

・夏サンダル、冬ブーツが売れる
  夏は何月何日から、冬は何月何日から
  気温が何度以上

・来場者予測
  はじめに顧客にきくこと
   なぜ予測したいのか、予測が当たったら?
   粒度
   どれくらい先の予測?
  データ
   来場者、属性・・・→使えそうなデータの掘り出し

・なにかやってください?
  予測
  データに関して
   時間分解能、粒度、いただける時間

・オリンピックでデータ分析
  いろいろあるね

Q&A
3つの人
・業務
・ITのプロ
・統計の専門家
→お客様に入っていただく:ドメインのプロが社内にいても
 お客さんにモチベーションがないとX


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする