ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

データマイニングのプロセスCRISP-DMとか、NECのビッグデータへの取り組みとか

2015-06-05 12:27:37 | AI・BigData
トップエスイーの「ソフトウェア工学勉強会」で機械学習の話を聴いてきたのでメモメモ




■NEC独自の分析技術を活用したビッグデータへの取り組み
機械学習活用事例

ICTへの社会の期待
・メガトレンド(世界の潮流)
課題と機会6つ
  1.連鎖する資源・環境問題
  2.新興国の成長と新たな課題
  3.成熟社会モデルの構築
  4.個の力の向上と影響力拡大
  5.パワーの集中から拡散へ
  6.多様化する脅威と安全安心ニーズ

テクノロジートレンドにおける機械学習の位置づけ
・2025年まで
  実世界のデジタル化:センシング
  分析・推論:アナリティクス
  制御・誘導:アクチベーション
 プラットフォーム:クラウド、早い開発、ICTプラットフォーム
  →機械学習

三位一体のビッグデータ活用で価値創造
 センシング・アナリティクス・アクティベーションをつなぐ
 潤滑油→ビッグデータ

個々の領域で広がるビッグデータ活用
・様々な事業でビッグデータ活用:書ききれない
 領域
  1.オペレーションの高度化・最適化:
     プラントの予兆・社会インフラ
  2.情報管理の強化、犯罪の不正検知
     金融
  3.製品・サービスの価値向上カイゼン
  4.マーケティング(販売促進)

NEC独自の分析技術

事例
1.エネルギー需要予測 大林組
  異種混合学習

2.需要予測型自動発注

3.保守部品需要予測 NECフィールディング
  出荷停止になる前に部品を買っている

4.プラント故障予兆監視 中部電力

5.情報ガバナンス強化 三井住友銀行

6.企業人材マッチング

「NECの社会ソリューション」で検索

■機械学習

機械学習によるデータ分析まわりのお話

の内容+追加を話

CRISP-DM
データマイニングのプロセス
 ビジネスの理解:目標設定
 データの理解:
 データの準備:正規化、サンプリング
  →データの理解・準備が分析の質を決める
   特徴量の設計
 モデリング
   モデル選択
   機械学習
 評価:ビジネスの観点から
 展開

・醜いアヒルの子定理
  4つのアヒル:どこか2箇所が違っている
  醜いアヒルの子は→これ!って選んだ→定義したから
 問題から独立した万能な特徴量は存在しない

・ノーフリーランチ定理
 あらゆる問題で性能のよい万能な学習アルゴリズムは存在しない
  →小数のアルゴリズムが使われている

・次元の呪い
  特徴量の数が増えると、はんか性能を向上させることが難しくなる
    球面集中現象
    過学習
  →特徴選択・次元削減が必要

・過学習
  機械学習ははんか誤差をいかに少なくするか
 しないようにするには?
  交差検証(Cross validation)
   →はんか性能を評価しているか

・誤差について

  真のモデル
    誤差
  得られたサンプル

  推定したモデル

 真のモデル→誤差+バイアスの誤差+バリアンス

・バイアスとバリアンス
  トレードオフの関係になりやすい

・学習曲線
  ハイバイアス
    スコアはあんまりよくないが、差が近い
   →特徴量を増やす、アルゴリズム、モデルを変える
  ハイバリアンス
   →データを増やす。不要な特徴量削除

■機械学習が生み出す高利の負債

machine learning the high interest credit card of technical debt
http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/43146.pdf


・technical debtについて

・概要
  スピードを優先した結果抱える「負債」
  機械学習の便利なパッケージを使うと・・
   アンチパターン

・境界の侵食
  絡み合い:
     1個の分布が変われば・・
     ハイパーパラメーター
   →アンサンブル、可視化

  隠れたフィードバックループ
   →因果関係のグラフ

  未申告の消費者

・コード依存性よりデータ依存性
  データのバージョン付け、凍結
  特徴量を増やして、変更に脆弱になる
  データ依存性の静的解析:データのアノテーション
  補正の連鎖→最初のモデルを汎用化

・接着コードパターン
  つなぐためのコード
 パイプラインジャングル
 使われていない実験コード
 コンフィグレーションに関する負債

・外の世界の変化
  妥当性確認
  監視とテスト
この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« FlashAirのIoT応用に関して | トップ | 今日はPepperの誕生日!って... »
最新の画像もっと見る

AI・BigData」カテゴリの最新記事