9月21日、
【初心者向け】基礎から学ぶ強化学習ハンズオン(Deep Q-Network編)
https://liberal-arts-beginners.connpass.com/event/144716/
に行ってきたメモ
強化学習
・強化学習が時系列問題だといいきってしまいます
→時系列分析と拡張発展
・系列モデルとマルコフ決定過程
マルコフ過程:確率過程の一種
時系列;ARモデル 自己回帰
→実際には重回帰みたいな式になっている
マルコフ性とは?
どのくらい過去を見る?Xt+1の値をみるのに、Xtしかみなくていい
→オートマトン
・何が解きたいの?
逐次的意思決定問題
将棋の次の一手、自動運転の次の運動
・ベルマン方程式
π:ポリシー
π:s→a
π*:s→a *が付くと最適
s;状態
a:アクション
πはどうやって作るか?
累積報酬和を使う 割引率:r ディスカウントレートを使う
報酬和をもとにV(s)、Q(S,a)を決める
→Q(s,a)を見ていきます
Q:状態行動価値
Q(s,a)=∑r^t*Rt
→これを扱うのにベルマン方程式という漸化式を使う
Q(s,a)=Qt+1(S,a)r
・ディープラーニングで近似する
・デモ
https://lib-arts.hatenablog.com/entry/rl_trend1
https://lib-arts.hatenablog.com/entry/rl_trend2
■OpenAI Gymの説明
・Cart Poleの説明
env.stepで状態が動く
状態とかは、
https://github.com/openai/gym/wiki/CartPole-v0
■Rainbow
強化学習
【初心者向け】基礎から学ぶ強化学習ハンズオン(Deep Q-Network編)
https://liberal-arts-beginners.connpass.com/event/144716/
に行ってきたメモ
強化学習
・強化学習が時系列問題だといいきってしまいます
→時系列分析と拡張発展
・系列モデルとマルコフ決定過程
マルコフ過程:確率過程の一種
時系列;ARモデル 自己回帰
→実際には重回帰みたいな式になっている
マルコフ性とは?
どのくらい過去を見る?Xt+1の値をみるのに、Xtしかみなくていい
→オートマトン
・何が解きたいの?
逐次的意思決定問題
将棋の次の一手、自動運転の次の運動
・ベルマン方程式
π:ポリシー
π:s→a
π*:s→a *が付くと最適
s;状態
a:アクション
πはどうやって作るか?
累積報酬和を使う 割引率:r ディスカウントレートを使う
報酬和をもとにV(s)、Q(S,a)を決める
→Q(s,a)を見ていきます
Q:状態行動価値
Q(s,a)=∑r^t*Rt
→これを扱うのにベルマン方程式という漸化式を使う
Q(s,a)=Qt+1(S,a)r
・ディープラーニングで近似する
・デモ
https://lib-arts.hatenablog.com/entry/rl_trend1
https://lib-arts.hatenablog.com/entry/rl_trend2
■OpenAI Gymの説明
・Cart Poleの説明
env.stepで状態が動く
状態とかは、
https://github.com/openai/gym/wiki/CartPole-v0
■Rainbow
強化学習