ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

強化学習を基礎から学んできた!

2019-09-24 08:21:21 | Weblog
9月21日、

【初心者向け】基礎から学ぶ強化学習ハンズオン(Deep Q-Network編)
https://liberal-arts-beginners.connpass.com/event/144716/

に行ってきたメモ




強化学習
・強化学習が時系列問題だといいきってしまいます
 →時系列分析と拡張発展

・系列モデルとマルコフ決定過程
 マルコフ過程:確率過程の一種

 時系列;ARモデル 自己回帰
  →実際には重回帰みたいな式になっている

 マルコフ性とは?
 どのくらい過去を見る?Xt+1の値をみるのに、Xtしかみなくていい
  →オートマトン

・何が解きたいの?
 逐次的意思決定問題
  将棋の次の一手、自動運転の次の運動

・ベルマン方程式
π:ポリシー
 π:s→a
 π*:s→a *が付くと最適
 s;状態
 a:アクション
 πはどうやって作るか?
  累積報酬和を使う 割引率:r ディスカウントレートを使う
  報酬和をもとにV(s)、Q(S,a)を決める
 →Q(s,a)を見ていきます
 Q:状態行動価値
 Q(s,a)=∑r^t*Rt
→これを扱うのにベルマン方程式という漸化式を使う
 Q(s,a)=Qt+1(S,a)r

・ディープラーニングで近似する

・デモ
https://lib-arts.hatenablog.com/entry/rl_trend1
https://lib-arts.hatenablog.com/entry/rl_trend2

■OpenAI Gymの説明
・Cart Poleの説明
env.stepで状態が動く
状態とかは、
https://github.com/openai/gym/wiki/CartPole-v0

■Rainbow
強化学習


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする