强化学习(ReinforcementLearning)学习笔记.pdfVIP

强化学习(ReinforcementLearning)学习笔记.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

强化学习(ReinforcementLearning)学习笔记

强化学习(ReinforcementLearning)学习笔记

前⾔

根据讲义为⽹易云课堂的强化学习(Python)

github代码

Q-learning

Tips:此处的Q(s,a)表⽰在s状态下进⾏a动作的得分,ε-greedy的意思是我们⾯对每个状态的Q表时,有ε的概率直接按

照表中最优值选择下⼀步⾏动,⽽1-ε概率随机动作。这时候对每步的Q进⾏更新,α为学习率。Q(s1,a2)现实的意思是,

假设s1时选择了a2到达s2,然后采取某种⾏为,这⾥取⼤得分的⾏为,然后把该⾏为即Q(s2,a2)乘上γ并加上奖励r,这样

得到的R表⽰我从s1开始实实在在选择a2这⼀步能得到的奖励R,其中γ表⽰记忆程度,再⽤现实的Q减去估计的Q来进⾏更

Sarsa

Sarsa(0)

Tips:Sarsa跟Q-learning的区别在于Q-learning每步都会取下⼀步现实的最⼤值,⽽Sarsa不会,相⽐来说可以理解为Q-

learning为到达⽬标永远最优(付出⼀切代价)⽽Sarsa则会尽量避开⼤代价。下⼀个state_,和下⼀个action_将会变成

他真正采取的action和state.和Qlearning的不同之处就在这.Qlearning的下个⼀个state_action_在算法更新的时候

都还是不确定的(off-policy).⽽Sarsa的state_,action_在这次算法更新的时候已经确定好了

Sarsa(λ)

Tips:λ为脚步衰减值,当λ为0时,即只记在reward前的最后⼀步,λ为1时即记住reward前的每⼀步,⽽我们的要求是

离reward前的步骤越近它记得越好

Tips:此处第⼀⾏的意思是每个结点访问的次数,第⼆三⾏的意思是累积访问它的eligibilitytrace,简单来说就是访问某结

点次数越多,说明得到reward途中访问该点的可能性越⾼,即不可或缺性。

Tips:相⽐之上多了⼀个δ错误差即真实值与估计值之差,E即为上⽂提到的不可或缺值,这样对于每个结点的Q值进⾏跟

不可或缺值有关的更新,再对不可或缺值进⾏λ的缩减,意思就是对于得到reward前,经过的每个点都进⾏标记,越近表

⽰不可或缺值越⾼且λ缩减越少,进⾏Q表更新时更新幅度更⼤,对于达到reward途中经历的点根据到达的次数即不可或缺

值E和距离reward的距离进⾏λ衰减

DeepQNetwork

NatureDQN

Tips:相⽐于Q-learning的Q表,此处每步的Q值由神经⽹络计算出来,此为Q估计,⽽为了更新神经⽹络的参数需要Q现

实,需要a1,a2正确的Q值,这个Q值我们就⽤之前在Q-learning中的Q现实来代替,后⽂提到的target-net得到的就是,这

样就能通过Q现实和Q估计来更新⽹络

Tips:⾸先初始化⽹络等,选择动作a时和上⽂⽅法⼀样根据概率或者随机选,执⾏action接受reward和新的state,将新

的transition(当前状态,⾏动,奖励,下⼀个状态)样本存⼊D中,从D中随机抽取⼀个minibatch的transition,根据Q表

得到Q现实的值y,再由y和Q估计的差值来对⽹络参数θ进⾏梯度下降,每C步执⾏⼀次更新

Tips:搭建两个神经⽹络,target_net⽤于预测q_target值,他不会及时更新参数。eval_net⽤于预测q_eval,这个神经

⽹络拥有最新的神经⽹络参数。不过这两个神经⽹络结构是完全⼀样的,只是⾥⾯的参数不⼀样,两个神经⽹络是为了固定

住⼀个神经⽹络(target_net)的参数,target_net是eval_net的⼀个历史版本,拥有eval_net很久之前的⼀组参数,⽽且这

组参数被固定⼀段时间,然后再被eval_net的新参数所替换,⽽eval_net是不断在被提升的。eval_net是得出Q估计,与Q

现实得到误差⽽更新⽹络的参数

DoubleDQN

Tips:过估计是指估计得值函数⽐真实值函数要⼤,其根源主要在于Q-Learning中的最⼤化操作,相⽐nature

DQN,DDQN的Q进⾏了更改,原本的Q=max(Q(s’,a_all)),现在的

现实nextnext

Q=Q(s’,argmax(Q(s’,a_all)),意思就是使⽤现成的eval_net估计除Q中的Qmax(s’,a’)的最⼤值,然后

文档评论(0)

洞察 + 关注
官方认证
文档贡献者

博士生

认证主体宁夏三科果农牧科技有限公司
IP属地宁夏
统一社会信用代码/组织机构代码
91640500MABW4P8P13

1亿VIP精品文档

相关文档