2019年8月2日のブログ記事一覧-ウィリアムのいたずらの、まちあるき、たべあるき

R2D2と言ったら？当然Recurrent Replay Distributed DQNだよね！

2019-08-02 08:48:11 | AI・BigData

という人が参加するのであろう

深層強化学習の研究トレンド（DQN～Rainbowまで）の解説と実装例の解説を行うセミナー
https://ml-for-experts.connpass.com/event/139751/

にいってきたのでメモ（キーワードしか拾えてないけど・・）

DQNからRainbowまで
マルコフ決定過程
　マルコフ性：１個前の状況で次が決まる
強化学習：時系列モデル
　一般的時系列だとAR（自己相関）
　数値だったらグラフで表せるかんじ
　言語的モデリングも系列モデルと見れる

強化学習の特殊なところ
　Decisionが大きい
　そもそも強化学習は何を学習する？
　言語モデル
　確率分布で表現する

強化学習：逐次意思決定問題（シーケンシャル　ディシジョンメーキング）
　ある時点での意思決定をどのように行うか？→将来報酬：ベルマン方程式
　状態の価値
　ｔ
　　　Rt+1　Rt+2　Rｔ＋３
　R：報酬　γ：割引率　　→ベルマン方程式へ

学習：漸化式の形に→誤差関数とかで効いてくる

Deep　Q　ネットワーク
　S→CNN:SoftMax→A

DQN：論文がいくつかある。２０１５年のを参照している

近似→未知の状態でも値が出せる

経験をどうやって蓄積するか
意思決定をどうやって学習させるか
RL（れいんふぉーすめんとらーにんぐ）
　→データ必要：
　　　　データの形式をどうするか（St,At，Rt＋１、γｔ＋１、St+1）
　　　　何を学習させるのか
　　　　どうやって学習させるのか

オンラインネットワークとターゲットネットワークがある
後ろから話が戻ってくる

オンライン（　Q(st,at)　）　－R→　ターゲット（）

誤差関数：エクスペリエンスリプレイ
　→ランダムサンプリング
　i.i.d：independent and identitical distribution
　　→サンプル相関性

動的計画法を使う、εグリーディ
RMSprop

だぶるQ－ラーニング
でゅえリングネットワークス
マルチステップラーニング
Noisy Net

→７つなので、レインボー
https://lib-arts.hatenablog.com/entry/rl_trend6

あぶレーションスタディablation study

OpenAI　Gym　５月２０日ブログ
https://lib-arts.hatenablog.com/entry/rl_trend1
https://lib-arts.hatenablog.com/entry/rl_trend2

Distributed Prioritized Experience Replay
https://arxiv.org/abs/1803.00933

Distributed Prioritized Experience Replayを読んだので解説してみる
https://qiita.com/tea_mf_/items/abd5ca7a8a52cd00a023

リカレント・リプレイ・ディストリビューテッドDQN(R2D2)
Recurrent Replay Distributed DQN
https://www.slideshare.net/juneokumura/rnnr2d2

ランキングに参加中。クリックして応援お願いします！

記事一覧 | 画像一覧 | フォロワー一覧 | フォトチャンネル一覧

日	月	火	水	木	金	土
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

アクセス
閲覧	847	PV
訪問者	579	IP
トータル
閲覧	34,804,242	PV
訪問者	8,673,655	IP
ランキング
日別	993	位
週別	741	位

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】運転免許、「MT」・「AT限定」どっち？
	訪問者数に応じてdポイント最大1,000pt当たる！
	dポイントが当たる！無料『毎日くじ』

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

R2D2と言ったら？当然Recurrent Replay Distributed DQNだよね！

カレンダー

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

R2D2と言ったら？当然Recurrent Replay Distributed DQNだよね！

カレンダー

ログイン

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ