トップエスイーの「ソフトウェア工学勉強会」で機械学習の話を聴いてきたのでメモメモ
■NEC独自の分析技術を活用したビッグデータへの取り組み
機械学習活用事例
ICTへの社会の期待
・メガトレンド(世界の潮流)
課題と機会6つ
1.連鎖する資源・環境問題
2.新興国の成長と新たな課題
3.成熟社会モデルの構築
4.個の力の向上と影響力拡大
5.パワーの集中から拡散へ
6.多様化する脅威と安全安心ニーズ
テクノロジートレンドにおける機械学習の位置づけ
・2025年まで
実世界のデジタル化:センシング
分析・推論:アナリティクス
制御・誘導:アクチベーション
プラットフォーム:クラウド、早い開発、ICTプラットフォーム
→機械学習
三位一体のビッグデータ活用で価値創造
センシング・アナリティクス・アクティベーションをつなぐ
潤滑油→ビッグデータ
個々の領域で広がるビッグデータ活用
・様々な事業でビッグデータ活用:書ききれない
領域
1.オペレーションの高度化・最適化:
プラントの予兆・社会インフラ
2.情報管理の強化、犯罪の不正検知
金融
3.製品・サービスの価値向上カイゼン
4.マーケティング(販売促進)
NEC独自の分析技術
事例
1.エネルギー需要予測 大林組
異種混合学習
2.需要予測型自動発注
3.保守部品需要予測 NECフィールディング
出荷停止になる前に部品を買っている
4.プラント故障予兆監視 中部電力
5.情報ガバナンス強化 三井住友銀行
6.企業人材マッチング
「NECの社会ソリューション」で検索
■機械学習
機械学習によるデータ分析まわりのお話
の内容+追加を話
・CRISP-DM
データマイニングのプロセス
ビジネスの理解:目標設定
データの理解:
データの準備:正規化、サンプリング
→データの理解・準備が分析の質を決める
特徴量の設計
モデリング
モデル選択
機械学習
評価:ビジネスの観点から
展開
・醜いアヒルの子定理
4つのアヒル:どこか2箇所が違っている
醜いアヒルの子は→これ!って選んだ→定義したから
問題から独立した万能な特徴量は存在しない
・ノーフリーランチ定理
あらゆる問題で性能のよい万能な学習アルゴリズムは存在しない
→小数のアルゴリズムが使われている
・次元の呪い
特徴量の数が増えると、はんか性能を向上させることが難しくなる
球面集中現象
過学習
→特徴選択・次元削減が必要
・過学習
機械学習ははんか誤差をいかに少なくするか
しないようにするには?
交差検証(Cross validation)
→はんか性能を評価しているか
・誤差について
真のモデル
誤差
得られたサンプル
推定したモデル
真のモデル→誤差+バイアスの誤差+バリアンス
・バイアスとバリアンス
トレードオフの関係になりやすい
・学習曲線
ハイバイアス
スコアはあんまりよくないが、差が近い
→特徴量を増やす、アルゴリズム、モデルを変える
ハイバリアンス
→データを増やす。不要な特徴量削除
■機械学習が生み出す高利の負債
machine learning the high interest credit card of technical debt
http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/43146.pdf
・technical debtについて
・概要
スピードを優先した結果抱える「負債」
機械学習の便利なパッケージを使うと・・
アンチパターン
・境界の侵食
絡み合い:
1個の分布が変われば・・
ハイパーパラメーター
→アンサンブル、可視化
隠れたフィードバックループ
→因果関係のグラフ
未申告の消費者
・コード依存性よりデータ依存性
データのバージョン付け、凍結
特徴量を増やして、変更に脆弱になる
データ依存性の静的解析:データのアノテーション
補正の連鎖→最初のモデルを汎用化
・接着コードパターン
つなぐためのコード
パイプラインジャングル
使われていない実験コード
コンフィグレーションに関する負債
・外の世界の変化
妥当性確認
監視とテスト
■NEC独自の分析技術を活用したビッグデータへの取り組み
機械学習活用事例
ICTへの社会の期待
・メガトレンド(世界の潮流)
課題と機会6つ
1.連鎖する資源・環境問題
2.新興国の成長と新たな課題
3.成熟社会モデルの構築
4.個の力の向上と影響力拡大
5.パワーの集中から拡散へ
6.多様化する脅威と安全安心ニーズ
テクノロジートレンドにおける機械学習の位置づけ
・2025年まで
実世界のデジタル化:センシング
分析・推論:アナリティクス
制御・誘導:アクチベーション
プラットフォーム:クラウド、早い開発、ICTプラットフォーム
→機械学習
三位一体のビッグデータ活用で価値創造
センシング・アナリティクス・アクティベーションをつなぐ
潤滑油→ビッグデータ
個々の領域で広がるビッグデータ活用
・様々な事業でビッグデータ活用:書ききれない
領域
1.オペレーションの高度化・最適化:
プラントの予兆・社会インフラ
2.情報管理の強化、犯罪の不正検知
金融
3.製品・サービスの価値向上カイゼン
4.マーケティング(販売促進)
NEC独自の分析技術
事例
1.エネルギー需要予測 大林組
異種混合学習
2.需要予測型自動発注
3.保守部品需要予測 NECフィールディング
出荷停止になる前に部品を買っている
4.プラント故障予兆監視 中部電力
5.情報ガバナンス強化 三井住友銀行
6.企業人材マッチング
「NECの社会ソリューション」で検索
■機械学習
機械学習によるデータ分析まわりのお話
の内容+追加を話
・CRISP-DM
データマイニングのプロセス
ビジネスの理解:目標設定
データの理解:
データの準備:正規化、サンプリング
→データの理解・準備が分析の質を決める
特徴量の設計
モデリング
モデル選択
機械学習
評価:ビジネスの観点から
展開
・醜いアヒルの子定理
4つのアヒル:どこか2箇所が違っている
醜いアヒルの子は→これ!って選んだ→定義したから
問題から独立した万能な特徴量は存在しない
・ノーフリーランチ定理
あらゆる問題で性能のよい万能な学習アルゴリズムは存在しない
→小数のアルゴリズムが使われている
・次元の呪い
特徴量の数が増えると、はんか性能を向上させることが難しくなる
球面集中現象
過学習
→特徴選択・次元削減が必要
・過学習
機械学習ははんか誤差をいかに少なくするか
しないようにするには?
交差検証(Cross validation)
→はんか性能を評価しているか
・誤差について
真のモデル
誤差
得られたサンプル
推定したモデル
真のモデル→誤差+バイアスの誤差+バリアンス
・バイアスとバリアンス
トレードオフの関係になりやすい
・学習曲線
ハイバイアス
スコアはあんまりよくないが、差が近い
→特徴量を増やす、アルゴリズム、モデルを変える
ハイバリアンス
→データを増やす。不要な特徴量削除
■機械学習が生み出す高利の負債
machine learning the high interest credit card of technical debt
http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/43146.pdf
・technical debtについて
・概要
スピードを優先した結果抱える「負債」
機械学習の便利なパッケージを使うと・・
アンチパターン
・境界の侵食
絡み合い:
1個の分布が変われば・・
ハイパーパラメーター
→アンサンブル、可視化
隠れたフィードバックループ
→因果関係のグラフ
未申告の消費者
・コード依存性よりデータ依存性
データのバージョン付け、凍結
特徴量を増やして、変更に脆弱になる
データ依存性の静的解析:データのアノテーション
補正の連鎖→最初のモデルを汎用化
・接着コードパターン
つなぐためのコード
パイプラインジャングル
使われていない実験コード
コンフィグレーションに関する負債
・外の世界の変化
妥当性確認
監視とテスト