強化学習入門 ~すうがくぶんかさんの無料公開講座~
今日は土曜日。晴れ。
8時起床。
咳が酷くて、今日は行けないかなあっと思っていたけど、
何とか身体を動かして、新橋汐留のビジネスフォーラムへ行って
10時~すうがくぶんかさん主催の「強化学習入門」の無料公開講座に
参加してきました。
講師は内場さんでした。
結構、Pythonのデモも使いながら説明を受けたので、途中で寝落ちすることもなく
楽しく講義を聴くことができた。
特に午前中後半はベルマン方程式について熱く語っていました。
午前中はマルコフ決定過程を前提とした話が中心でした。
午後は方策決定にランダム性を持たせたε-greedy方式を採用してQテーブルを
更新する話から始まりました。
off-policyの方策でgreedy方式とε-greedy方式の使い分けについてもお話されていました。
途中で学習率におけるロビンス・モンロー条件などのcoffee breakの話もあり楽しかったです。
一通り基本のQ学習の話を終えた後は、Sarsaアルゴリズムの紹介をしていました。
Sarsaの語源は(State+Action+Reward+State+Action)らしく、
Sarsaはもう一回行動をしてその学習を繰り込んで学習するため、極端に悪い報酬に
陥ることはないらしく、オンライン学習等で用いられているらしい。
最後は方策勾配法でちょーむずいという話だったけど、まあまあイメージは分かりました。
この方策はマルコフ決定過程を仮定しない、より汎用的な環境での学習の話らしいです。
つまり方策自身を微分して勾配法を使って求めるのかな。
方策をパラメトライズするためにSoftmax関数を使うらしい。。。
そしてさらに突っ込むとロジスティック回帰でもSVMでもいいらしい。
つまり方策勾配法は教師あり学習に近づける方策とのこと。ここが重要らしい。
方策勾配定理(Suttom)というものがあって、(対数尤度関数になる)計算できるらしい。
ただ勾配法を使うところがネックで局所最適化に陥ることがあり多々あるらしい。
最後はおまけでDQNの話がありました。
DQNでも何でもそうらしいが時系列性があると途端に弱くなるらしい。
そのために時系列性を薄めるためにデータをシャッフルしてミニバッチでやる方法が
結構有効とのこと。
最後のまとめでは、強化学習の一番難しいのは、報酬の設計だという説明で終わりました。
まあ最後の方は何だかよく分からなくなってきたけど、面白かったです。
というか咳が酷くて、少し熱っぽいので、自分でも何をメモっているのかよくわからなくなってきた。。。(´;ω;`)ウッ…
内場さんのお話を聞くのは今回2度目だけど、結構気さくな方でいい人だなと思う。
まあ、体調悪いのをおして、新橋汐留に来て良かったよ。
そういえば結城浩先生の乱択アルゴリズムだけ数学ガールの中で唯一読んでなかったな。
ちょっとこの年末年始の休み中に読んでみよう。
明日からの年末年始休暇中は年明けに予定している以下の講座資料に時間を
割くつもりです。一応好きな本の読書をしながら。。。
・データサイエンス基礎知識(1.0日)
・データサイエンスツール(1.5日)
・訓練校Java基礎演習
・データサイエンスツール(1.5日)
・訓練校Java基礎演習
疲れた。。。早く、咳を直さなきゃ。お風呂入って寝る。
【今後の予定】
・床屋(12月30日16時~)
・某大手電機メーカー子会社の育成候補3名選抜でデータサイエンス講義
ーーーーーーーーー
●一人目
01月08日 データサイエンスツール(1.0日)
01月20日 データサイエンスツール(0.5日)
・床屋(12月30日16時~)
・某大手電機メーカー子会社の育成候補3名選抜でデータサイエンス講義
ーーーーーーーーー
●一人目
01月08日 データサイエンスツール(1.0日)
01月20日 データサイエンスツール(0.5日)
●二人目
01月16日 データサイエンス基礎知識(1.0日)
01月23日 機械学習概要(1.0日) 別ビルで開催
01月28日 データサイエンスツール(1.0日)
01月30日 データサイエンスツール(0.5日)
01月16日 データサイエンス基礎知識(1.0日)
01月23日 機械学習概要(1.0日) 別ビルで開催
01月28日 データサイエンスツール(1.0日)
01月30日 データサイエンスツール(0.5日)
●三人目
01月09日 Pythonプログラミング(1.0日)
01月10日 Pythonプログラミング(0.5日)
01月16日 データサイエンス基礎知識(1.0日)
01月17日 機械学習概要(1.0日)
ーーーーーーーーー
・大人のためのビジュアルプログラミング講座
ーーーーーーーーー
01月14日 PM メイン講師
ーーーーーーーーー
・02月06日~03月04日 訓練校、Java基礎演習メイン講師
・03月06日~03月09日 訓練校、SQL基礎演習メイン講師
01月09日 Pythonプログラミング(1.0日)
01月10日 Pythonプログラミング(0.5日)
01月16日 データサイエンス基礎知識(1.0日)
01月17日 機械学習概要(1.0日)
ーーーーーーーーー
・大人のためのビジュアルプログラミング講座
ーーーーーーーーー
01月14日 PM メイン講師
ーーーーーーーーー
・02月06日~03月04日 訓練校、Java基礎演習メイン講師
・03月06日~03月09日 訓練校、SQL基礎演習メイン講師
【やることリストのタスク】
・Python講座カリキュラム体系の再検討と講義資料の作成
・神奈川県職業訓練Java&Python養成科 Java講義準備(講義日程:2月7日~3月4日)
・某大手電機メーカー子会社の育成候補3名選抜でデータサイエンス講義準備(以下講義内訳)
ーーーーーーーーー
●【Pythonプログラミング(1.5日)】
●【データサイエンス基礎知識(1.0日)】
・Python講座カリキュラム体系の再検討と講義資料の作成
・神奈川県職業訓練Java&Python養成科 Java講義準備(講義日程:2月7日~3月4日)
・某大手電機メーカー子会社の育成候補3名選抜でデータサイエンス講義準備(以下講義内訳)
ーーーーーーーーー
●【Pythonプログラミング(1.5日)】
●【データサイエンス基礎知識(1.0日)】
●【機械学習概要(1.0日)】
●【データサイエンスツール(1.5日)】
ーーーーーーーーー
・人工知能プログラミングのための数学がわかる本 石川 聡彦
・現代数理統計学の基礎 (共立講座 数学の魅力) 久保川 達也
・計算機代数の基礎理論 長坂 耕作
・統計モデルと推測 (データサイエンス入門シリーズ) 松井 秀俊
・科学技術計算のためのPython―確率・統計・機械学習 Jose Unpingco(P.106/297読了)
・Kaggleで勝つデータ分析の技術 門脇 大輔(P.111/407読了)
・わかりやすいパターン認識 石井 健一郎
・続・わかりやすいパターン認識―教師なし学習入門― 石井 健一郎
・機械学習スタートアップシリーズ これならわかる深層学習入門 (KS情報科学専門書) 瀧 雅人(P.199/330読了)
・工学系の関数解析 小川 英光(P.212/283読了)
・みんなのR 第2版 Jared P. Lander(P.82/575読了)
・エントロピーの正体 アリー・ベン=ナイム(P.56/184読了)
・逆数学:定理から公理を「証明」する ジョン・スティルウェル(P.27/205読了)