- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
强化学习(ReinforcementLearning)学习笔记
强化学习(ReinforcementLearning)学习笔记
前⾔
根据讲义为⽹易云课堂的强化学习(Python)
github代码
Q-learning
Tips:此处的Q(s,a)表⽰在s状态下进⾏a动作的得分,ε-greedy的意思是我们⾯对每个状态的Q表时,有ε的概率直接按
照表中最优值选择下⼀步⾏动,⽽1-ε概率随机动作。这时候对每步的Q进⾏更新,α为学习率。Q(s1,a2)现实的意思是,
假设s1时选择了a2到达s2,然后采取某种⾏为,这⾥取⼤得分的⾏为,然后把该⾏为即Q(s2,a2)乘上γ并加上奖励r,这样
得到的R表⽰我从s1开始实实在在选择a2这⼀步能得到的奖励R,其中γ表⽰记忆程度,再⽤现实的Q减去估计的Q来进⾏更
新
Sarsa
Sarsa(0)
Tips:Sarsa跟Q-learning的区别在于Q-learning每步都会取下⼀步现实的最⼤值,⽽Sarsa不会,相⽐来说可以理解为Q-
learning为到达⽬标永远最优(付出⼀切代价)⽽Sarsa则会尽量避开⼤代价。下⼀个state_,和下⼀个action_将会变成
他真正采取的action和state.和Qlearning的不同之处就在这.Qlearning的下个⼀个state_action_在算法更新的时候
都还是不确定的(off-policy).⽽Sarsa的state_,action_在这次算法更新的时候已经确定好了
Sarsa(λ)
Tips:λ为脚步衰减值,当λ为0时,即只记在reward前的最后⼀步,λ为1时即记住reward前的每⼀步,⽽我们的要求是
离reward前的步骤越近它记得越好
Tips:此处第⼀⾏的意思是每个结点访问的次数,第⼆三⾏的意思是累积访问它的eligibilitytrace,简单来说就是访问某结
点次数越多,说明得到reward途中访问该点的可能性越⾼,即不可或缺性。
Tips:相⽐之上多了⼀个δ错误差即真实值与估计值之差,E即为上⽂提到的不可或缺值,这样对于每个结点的Q值进⾏跟
不可或缺值有关的更新,再对不可或缺值进⾏λ的缩减,意思就是对于得到reward前,经过的每个点都进⾏标记,越近表
⽰不可或缺值越⾼且λ缩减越少,进⾏Q表更新时更新幅度更⼤,对于达到reward途中经历的点根据到达的次数即不可或缺
值E和距离reward的距离进⾏λ衰减
DeepQNetwork
NatureDQN
Tips:相⽐于Q-learning的Q表,此处每步的Q值由神经⽹络计算出来,此为Q估计,⽽为了更新神经⽹络的参数需要Q现
实,需要a1,a2正确的Q值,这个Q值我们就⽤之前在Q-learning中的Q现实来代替,后⽂提到的target-net得到的就是,这
样就能通过Q现实和Q估计来更新⽹络
Tips:⾸先初始化⽹络等,选择动作a时和上⽂⽅法⼀样根据概率或者随机选,执⾏action接受reward和新的state,将新
的transition(当前状态,⾏动,奖励,下⼀个状态)样本存⼊D中,从D中随机抽取⼀个minibatch的transition,根据Q表
得到Q现实的值y,再由y和Q估计的差值来对⽹络参数θ进⾏梯度下降,每C步执⾏⼀次更新
Tips:搭建两个神经⽹络,target_net⽤于预测q_target值,他不会及时更新参数。eval_net⽤于预测q_eval,这个神经
⽹络拥有最新的神经⽹络参数。不过这两个神经⽹络结构是完全⼀样的,只是⾥⾯的参数不⼀样,两个神经⽹络是为了固定
住⼀个神经⽹络(target_net)的参数,target_net是eval_net的⼀个历史版本,拥有eval_net很久之前的⼀组参数,⽽且这
组参数被固定⼀段时间,然后再被eval_net的新参数所替换,⽽eval_net是不断在被提升的。eval_net是得出Q估计,与Q
现实得到误差⽽更新⽹络的参数
DoubleDQN
Tips:过估计是指估计得值函数⽐真实值函数要⼤,其根源主要在于Q-Learning中的最⼤化操作,相⽐nature
DQN,DDQN的Q进⾏了更改,原本的Q=max(Q(s’,a_all)),现在的
现实nextnext
Q=Q(s’,argmax(Q(s’,a_all)),意思就是使⽤现成的eval_net估计除Q中的Qmax(s’,a’)的最⼤值,然后
您可能关注的文档
最近下载
- 1桌签格式.doc VIP
- 丰富多彩的中华传统体育+课件 2025-2026学年人教版(2024)初中体育与健康八年级全一册.pptx VIP
- XX能源公司XX风电场×MW工程建设管理制度汇编(总承包项目部)完整版.doc
- 2020抽水蓄能电站施工设计方案.pdf VIP
- 儿童糖尿病酮症酸中毒诊疗指南(2024).pptx VIP
- 虚拟电厂管理平台需求及设计-方案合集.docx VIP
- 茶饮料灭菌技术概述.pdf VIP
- 2025新高考高一函数定义域值域解析式易错培优竞赛试题(解析板).docx
- 常用NTC47KΩ阻值B=3950阻温R-T对照表.pdf VIP
- 歌曲《我和我的祖国》课件.pptx
文档评论(0)