という人が参加するのであろう
深層強化学習の研究トレンド(DQN~Rainbowまで)の解説と実装例の解説を行うセミナー
https://ml-for-experts.connpass.com/event/139751/
にいってきたのでメモ(キーワードしか拾えてないけど・・)
DQNからRainbowまで
マルコフ決定過程
マルコフ性:1個前の状況で次が決まる
強化学習:時系列モデル
一般的時系列だとAR(自己相関)
数値だったらグラフで表せるかんじ
言語的モデリングも系列モデルと見れる
強化学習の特殊なところ
Decisionが大きい
そもそも強化学習は何を学習する?
言語モデル
確率分布で表現する
強化学習:逐次意思決定問題(シーケンシャル ディシジョンメーキング)
ある時点での意思決定をどのように行うか?→将来報酬:ベルマン方程式
状態の価値
t
Rt+1 Rt+2 Rt+3
R:報酬 γ:割引率 →ベルマン方程式へ
学習:漸化式の形に→誤差関数とかで効いてくる
Deep Q ネットワーク
S→CNN:SoftMax→A
DQN:論文がいくつかある。2015年のを参照している
近似→未知の状態でも値が出せる
経験をどうやって蓄積するか
意思決定をどうやって学習させるか
RL(れいんふぉーすめんとらーにんぐ)
→データ必要:
データの形式をどうするか(St,At,Rt+1、γt+1、St+1)
何を学習させるのか
どうやって学習させるのか
オンラインネットワークとターゲットネットワークがある
後ろから話が戻ってくる
オンライン( Q(st,at) ) -R→ ターゲット()
誤差関数:エクスペリエンスリプレイ
→ランダムサンプリング
i.i.d:independent and identitical distribution
→サンプル相関性
動的計画法を使う、εグリーディ
RMSprop
だぶるQ-ラーニング
でゅえリングネットワークス
マルチステップラーニング
Noisy Net
→7つなので、レインボー
https://lib-arts.hatenablog.com/entry/rl_trend6
あぶレーションスタディablation study
OpenAI Gym 5月20日ブログ
https://lib-arts.hatenablog.com/entry/rl_trend1
https://lib-arts.hatenablog.com/entry/rl_trend2
Distributed Prioritized Experience Replay
https://arxiv.org/abs/1803.00933
Distributed Prioritized Experience Replayを読んだので解説してみる
https://qiita.com/tea_mf_/items/abd5ca7a8a52cd00a023
リカレント・リプレイ・ディストリビューテッドDQN(R2D2)
Recurrent Replay Distributed DQN
https://www.slideshare.net/juneokumura/rnnr2d2
深層強化学習の研究トレンド(DQN~Rainbowまで)の解説と実装例の解説を行うセミナー
https://ml-for-experts.connpass.com/event/139751/
にいってきたのでメモ(キーワードしか拾えてないけど・・)
DQNからRainbowまで
マルコフ決定過程
マルコフ性:1個前の状況で次が決まる
強化学習:時系列モデル
一般的時系列だとAR(自己相関)
数値だったらグラフで表せるかんじ
言語的モデリングも系列モデルと見れる
強化学習の特殊なところ
Decisionが大きい
そもそも強化学習は何を学習する?
言語モデル
確率分布で表現する
強化学習:逐次意思決定問題(シーケンシャル ディシジョンメーキング)
ある時点での意思決定をどのように行うか?→将来報酬:ベルマン方程式
状態の価値
t
Rt+1 Rt+2 Rt+3
R:報酬 γ:割引率 →ベルマン方程式へ
学習:漸化式の形に→誤差関数とかで効いてくる
Deep Q ネットワーク
S→CNN:SoftMax→A
DQN:論文がいくつかある。2015年のを参照している
近似→未知の状態でも値が出せる
経験をどうやって蓄積するか
意思決定をどうやって学習させるか
RL(れいんふぉーすめんとらーにんぐ)
→データ必要:
データの形式をどうするか(St,At,Rt+1、γt+1、St+1)
何を学習させるのか
どうやって学習させるのか
オンラインネットワークとターゲットネットワークがある
後ろから話が戻ってくる
オンライン( Q(st,at) ) -R→ ターゲット()
誤差関数:エクスペリエンスリプレイ
→ランダムサンプリング
i.i.d:independent and identitical distribution
→サンプル相関性
動的計画法を使う、εグリーディ
RMSprop
だぶるQ-ラーニング
でゅえリングネットワークス
マルチステップラーニング
Noisy Net
→7つなので、レインボー
https://lib-arts.hatenablog.com/entry/rl_trend6
あぶレーションスタディablation study
OpenAI Gym 5月20日ブログ
https://lib-arts.hatenablog.com/entry/rl_trend1
https://lib-arts.hatenablog.com/entry/rl_trend2
Distributed Prioritized Experience Replay
https://arxiv.org/abs/1803.00933
Distributed Prioritized Experience Replayを読んだので解説してみる
https://qiita.com/tea_mf_/items/abd5ca7a8a52cd00a023
リカレント・リプレイ・ディストリビューテッドDQN(R2D2)
Recurrent Replay Distributed DQN
https://www.slideshare.net/juneokumura/rnnr2d2