ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

R2D2と言ったら?当然Recurrent Replay Distributed DQNだよね!

2019-08-02 08:48:11 | AI・BigData
という人が参加するのであろう

深層強化学習の研究トレンド(DQN~Rainbowまで)の解説と実装例の解説を行うセミナー
https://ml-for-experts.connpass.com/event/139751/


にいってきたのでメモ(キーワードしか拾えてないけど・・)




DQNからRainbowまで
マルコフ決定過程
 マルコフ性:1個前の状況で次が決まる
強化学習:時系列モデル
 一般的時系列だとAR(自己相関)
 数値だったらグラフで表せるかんじ
 言語的モデリングも系列モデルと見れる

強化学習の特殊なところ
 Decisionが大きい
 そもそも強化学習は何を学習する?
 言語モデル
 確率分布で表現する

強化学習:逐次意思決定問題(シーケンシャル ディシジョンメーキング)
 ある時点での意思決定をどのように行うか?→将来報酬:ベルマン方程式
 状態の価値
 t
   Rt+1 Rt+2 Rt+3
 R:報酬 γ:割引率  →ベルマン方程式へ

学習:漸化式の形に→誤差関数とかで効いてくる

Deep Q ネットワーク
 S→CNN:SoftMax→A

DQN:論文がいくつかある。2015年のを参照している

近似→未知の状態でも値が出せる

経験をどうやって蓄積するか
意思決定をどうやって学習させるか
RL(れいんふぉーすめんとらーにんぐ)
 →データ必要:
    データの形式をどうするか(St,At,Rt+1、γt+1、St+1)
    何を学習させるのか
    どうやって学習させるのか

オンラインネットワークとターゲットネットワークがある
後ろから話が戻ってくる

オンライン( Q(st,at) ) -R→ ターゲット()

誤差関数:エクスペリエンスリプレイ
 →ランダムサンプリング
 i.i.d:independent and identitical distribution
  →サンプル相関性

動的計画法を使う、εグリーディ
RMSprop

だぶるQ-ラーニング
でゅえリングネットワークス
マルチステップラーニング
Noisy Net

→7つなので、レインボー
https://lib-arts.hatenablog.com/entry/rl_trend6

あぶレーションスタディablation study


OpenAI Gym 5月20日ブログ
https://lib-arts.hatenablog.com/entry/rl_trend1
https://lib-arts.hatenablog.com/entry/rl_trend2


Distributed Prioritized Experience Replay
https://arxiv.org/abs/1803.00933

Distributed Prioritized Experience Replayを読んだので解説してみる
https://qiita.com/tea_mf_/items/abd5ca7a8a52cd00a023


リカレント・リプレイ・ディストリビューテッドDQN(R2D2)
Recurrent Replay Distributed DQN
https://www.slideshare.net/juneokumura/rnnr2d2

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする