6月26日、NIIで
「ソフトウェアエンジニアのための「機械学習理論」入門」
http://topse.or.jp/2015/05/2344
を聞いてきた。その内容をメモメモ
資料はWebにアップロードしたお
http://www.slideshare.net/enakai/ss-46880120
(ハンズオン)
http://www.slideshare.net/enakai/machine-learning-theroy-handson-20150420
数式の意味
例題は、「パターン認識と機械学習」(黄色い本)
この本にチャレンジするファーストステップ
機械学習の本が出版されるはず-その本に書く
講義と平行して演習
■データサイエンス入門
・データサイエンスの全体像
ビジネス判断を支えるもの
ビジネスとして意味のある判断指標を見つける
データ:ビジネス的な意味
ドメインナレッジも持っていないと
・ビジネスにおけるデータサイエンスの役割
ハリケーンが来たときに、どういう品揃えをしたらよいか?
いけてない例
水が売れました!
DVD:アナ雪→将来を予測しないといけない
いけていそう
ビールがうれていました。在庫したら?
→在庫にかかる費用と予測
事実でなく、儲かる方法を聞いている
・いけてない機械学習の例
チャーニング(ケータイキャリア乗り換え)
決定木で分析
お客さんの写真のデータを決定木にいれる:答えは出る
・機械学習アルゴリズムの分類(代表例)
目的:どう使いたいのかで分類
・クラシフィケーション
分類ルールを作っておく
確率で決めることもできる
・回帰
数値を予測する
何人の人が申し込むか?
基本料金をいくらにしたら・・・
・クラスタリング
教師なし学習
(教師あり:答えがわかっている過去のデータを使う)
ツール
・R
・Enthought(えんそーと) Canopy(きゃのぴー)
機械学習系がインストールできる
scikit-learn:機械学習用ライブラリは有償
pandas:データフレーム使える
演習準備
・Canopyのインストール
・GUIは使わないので閉じる
・ライセンスのメッセージは無視(フリー版なので)
・サンプルコマンドGet、Unzip、config
回帰分析
・最小二乗法
トレーニングセットのデータ10個
予測してください
・多項式を仮定する
二乗誤差を求める→最小値を求める;偏微分が0
W=係数、t=時点 ファイ=各点
3次にしたらけっこういい
9次にしたら全部点がとおる→オーバーフィッティング
ERMS:誤差の平均
・一般化力
未来のデータにどのくらい予測できるか
オーバーフィッティング:見つける方法:テストセットを使う
ERMSとテストセット→交差分割(クロスバリデーション)
3次だとわかったら、そのあとは全データを使って検証する
→誤差はでる。データの本質的な誤差があるから
横軸を特徴変数という人たちもいる
■最尤推定
・確率的に予想
+-σぐらいの広がりで
・トレーニングセットが得られる数(掛け算)→尤度関数
→誤差関数がでてくる
・尤度関数を最大化するパラメータ
→誤差関数がでてくる→それを分析する
・標準偏差→ERMS
・トレーニングセットの平均が真の平均(分散も)と推定する(あくまでも推定)
不偏分散
・小さく出る→ちっと大きくしたほうがいい値
NでなくN-1とする
■線形判別法
・パーセプトロン(誤差最小)
1とー1にラベル付けされているのを分ける
誤差を小さくする
確率的勾配こうかほう
ベクトル解析。グラディエント:こうばいベクトルが出る
n=1,2,・・・N
間違って分類されていたら、パラメータを修正する
Nまでいったら、また1に戻る
バイアス項は任意にとれるが、収束速度が変わる
C=1で書くと、収束が遅いはず
→サンプルが早いのは、トレーニングセットが原点付近を通る用になっている
三次元で考えると、定数Cを通る平面上に点をばらまける。
この場合原点をとおる平面によって分割直線を表現できる
→教科書に超平面で分割するとかかいてあるやつ
・ロジスティック回帰(確率最大)
tが0と1とする→ベルヌーイ分布になる
1の確率p、0の確率(1-p)
これを1つにまとめるとベルヌーイ分布
→尤度はIRLSで求められる
■学習モデルの評価(ROC曲線)
・何パーセントにしたらいいか
TP Rate
FP Rate
ROC曲線を書いて判断する
TP Rate,FP Rateの曲線
うまく分類できると、左上にはりだす
なまめ45度=ランダム判定
下側にくる→悪意を持ってうそをついている
数学的にはAUC(エリアアンダーカーブ)でやる
■クラスタリング
・K-means
2乗ゆがみが小さいグループを答えとする
代表点も属するグループもランダムに決める→選びなおす
いつかは極小値になる
何回もクラスタリングする
応用例:画像減色処理
文書の分類:同じ単語がどのくらい
・EM法
手書き文字の分類
代表文字とどれくらい似ているか
各ピクセルが黒になるマスター
手書き文字をランダムに生成
同じものが得られる確率→尤度関数
→ベルヌーイ分布になる
K平均法に類似した手続きで得られる
K番目のジェネレーターが使われる確率
重心を取る
クラスタリング:主観が入る
CTC教育サービス
NECの「学習型超画像技術」→事前に鮮明なナンバープレートで学習
「ソフトウェアエンジニアのための「機械学習理論」入門」
http://topse.or.jp/2015/05/2344
を聞いてきた。その内容をメモメモ
資料はWebにアップロードしたお
http://www.slideshare.net/enakai/ss-46880120
(ハンズオン)
http://www.slideshare.net/enakai/machine-learning-theroy-handson-20150420
数式の意味
例題は、「パターン認識と機械学習」(黄色い本)
この本にチャレンジするファーストステップ
機械学習の本が出版されるはず-その本に書く
講義と平行して演習
■データサイエンス入門
・データサイエンスの全体像
ビジネス判断を支えるもの
ビジネスとして意味のある判断指標を見つける
データ:ビジネス的な意味
ドメインナレッジも持っていないと
・ビジネスにおけるデータサイエンスの役割
ハリケーンが来たときに、どういう品揃えをしたらよいか?
いけてない例
水が売れました!
DVD:アナ雪→将来を予測しないといけない
いけていそう
ビールがうれていました。在庫したら?
→在庫にかかる費用と予測
事実でなく、儲かる方法を聞いている
・いけてない機械学習の例
チャーニング(ケータイキャリア乗り換え)
決定木で分析
お客さんの写真のデータを決定木にいれる:答えは出る
・機械学習アルゴリズムの分類(代表例)
目的:どう使いたいのかで分類
・クラシフィケーション
分類ルールを作っておく
確率で決めることもできる
・回帰
数値を予測する
何人の人が申し込むか?
基本料金をいくらにしたら・・・
・クラスタリング
教師なし学習
(教師あり:答えがわかっている過去のデータを使う)
ツール
・R
・Enthought(えんそーと) Canopy(きゃのぴー)
機械学習系がインストールできる
scikit-learn:機械学習用ライブラリは有償
pandas:データフレーム使える
演習準備
・Canopyのインストール
・GUIは使わないので閉じる
・ライセンスのメッセージは無視(フリー版なので)
・サンプルコマンドGet、Unzip、config
回帰分析
・最小二乗法
トレーニングセットのデータ10個
予測してください
・多項式を仮定する
二乗誤差を求める→最小値を求める;偏微分が0
W=係数、t=時点 ファイ=各点
3次にしたらけっこういい
9次にしたら全部点がとおる→オーバーフィッティング
ERMS:誤差の平均
・一般化力
未来のデータにどのくらい予測できるか
オーバーフィッティング:見つける方法:テストセットを使う
ERMSとテストセット→交差分割(クロスバリデーション)
3次だとわかったら、そのあとは全データを使って検証する
→誤差はでる。データの本質的な誤差があるから
横軸を特徴変数という人たちもいる
■最尤推定
・確率的に予想
+-σぐらいの広がりで
・トレーニングセットが得られる数(掛け算)→尤度関数
→誤差関数がでてくる
・尤度関数を最大化するパラメータ
→誤差関数がでてくる→それを分析する
・標準偏差→ERMS
・トレーニングセットの平均が真の平均(分散も)と推定する(あくまでも推定)
不偏分散
・小さく出る→ちっと大きくしたほうがいい値
NでなくN-1とする
■線形判別法
・パーセプトロン(誤差最小)
1とー1にラベル付けされているのを分ける
誤差を小さくする
確率的勾配こうかほう
ベクトル解析。グラディエント:こうばいベクトルが出る
n=1,2,・・・N
間違って分類されていたら、パラメータを修正する
Nまでいったら、また1に戻る
バイアス項は任意にとれるが、収束速度が変わる
C=1で書くと、収束が遅いはず
→サンプルが早いのは、トレーニングセットが原点付近を通る用になっている
三次元で考えると、定数Cを通る平面上に点をばらまける。
この場合原点をとおる平面によって分割直線を表現できる
→教科書に超平面で分割するとかかいてあるやつ
・ロジスティック回帰(確率最大)
tが0と1とする→ベルヌーイ分布になる
1の確率p、0の確率(1-p)
これを1つにまとめるとベルヌーイ分布
→尤度はIRLSで求められる
■学習モデルの評価(ROC曲線)
・何パーセントにしたらいいか
TP Rate
FP Rate
ROC曲線を書いて判断する
TP Rate,FP Rateの曲線
うまく分類できると、左上にはりだす
なまめ45度=ランダム判定
下側にくる→悪意を持ってうそをついている
数学的にはAUC(エリアアンダーカーブ)でやる
■クラスタリング
・K-means
2乗ゆがみが小さいグループを答えとする
代表点も属するグループもランダムに決める→選びなおす
いつかは極小値になる
何回もクラスタリングする
応用例:画像減色処理
文書の分類:同じ単語がどのくらい
・EM法
手書き文字の分類
代表文字とどれくらい似ているか
各ピクセルが黒になるマスター
手書き文字をランダムに生成
同じものが得られる確率→尤度関数
→ベルヌーイ分布になる
K平均法に類似した手続きで得られる
K番目のジェネレーターが使われる確率
重心を取る
クラスタリング:主観が入る
CTC教育サービス
NECの「学習型超画像技術」→事前に鮮明なナンバープレートで学習