强化学习（ReinforcementLearning）学习笔记.pdfVIP

下载本文档

86
0
约5.5千字
约 18页
2023-12-26 发布于宁夏
举报
版权申诉

强化学习（ReinforcementLearning）学习笔记.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

强化学习（ReinforcementLearning）学习笔记

前⾔

根据讲义为⽹易云课堂的强化学习(Python)

github代码

Q-learning

Tips：此处的Q(s,a)表⽰在s状态下进⾏a动作的得分，ε-greedy的意思是我们⾯对每个状态的Q表时，有ε的概率直接按

照表中最优值选择下⼀步⾏动，⽽1-ε概率随机动作。这时候对每步的Q进⾏更新，α为学习率。Q(s1,a2)现实的意思是，

假设s1时选择了a2到达s2，然后采取某种⾏为，这⾥取⼤得分的⾏为，然后把该⾏为即Q(s2,a2)乘上γ并加上奖励r，这样

得到的R表⽰我从s1开始实实在在选择a2这⼀步能得到的奖励R，其中γ表⽰记忆程度，再⽤现实的Q减去估计的Q来进⾏更

新

Sarsa

Sarsa(0)

Tips：Sarsa跟Q-learning的区别在于Q-learning每步都会取下⼀步现实的最⼤值，⽽Sarsa不会，相⽐来说可以理解为Q-

learning为到达⽬标永远最优（付出⼀切代价）⽽Sarsa则会尽量避开⼤代价。下⼀个state_,和下⼀个action_将会变成

他真正采取的action和state.和Qlearning的不同之处就在这.Qlearning的下个⼀个state_action_在算法更新的时候

都还是不确定的(off-policy).⽽Sarsa的state_,action_在这次算法更新的时候已经确定好了

Sarsa(λ)

Tips：λ为脚步衰减值，当λ为0时，即只记在reward前的最后⼀步，λ为1时即记住reward前的每⼀步，⽽我们的要求是

离reward前的步骤越近它记得越好

Tips：此处第⼀⾏的意思是每个结点访问的次数，第⼆三⾏的意思是累积访问它的eligibilitytrace，简单来说就是访问某结

点次数越多，说明得到reward途中访问该点的可能性越⾼，即不可或缺性。

Tips：相⽐之上多了⼀个δ错误差即真实值与估计值之差，E即为上⽂提到的不可或缺值，这样对于每个结点的Q值进⾏跟

不可或缺值有关的更新，再对不可或缺值进⾏λ的缩减，意思就是对于得到reward前，经过的每个点都进⾏标记，越近表

⽰不可或缺值越⾼且λ缩减越少，进⾏Q表更新时更新幅度更⼤，对于达到reward途中经历的点根据到达的次数即不可或缺

值E和距离reward的距离进⾏λ衰减

DeepQNetwork

NatureDQN

Tips：相⽐于Q-learning的Q表，此处每步的Q值由神经⽹络计算出来，此为Q估计，⽽为了更新神经⽹络的参数需要Q现

实，需要a1,a2正确的Q值,这个Q值我们就⽤之前在Q-learning中的Q现实来代替，后⽂提到的target-net得到的就是，这

样就能通过Q现实和Q估计来更新⽹络

Tips：⾸先初始化⽹络等，选择动作a时和上⽂⽅法⼀样根据概率或者随机选，执⾏action接受reward和新的state，将新

的transition（当前状态，⾏动，奖励，下⼀个状态）样本存⼊D中，从D中随机抽取⼀个minibatch的transition，根据Q表

得到Q现实的值y，再由y和Q估计的差值来对⽹络参数θ进⾏梯度下降，每C步执⾏⼀次更新

Tips：搭建两个神经⽹络，target_net⽤于预测q_target值，他不会及时更新参数。eval_net⽤于预测q_eval，这个神经

⽹络拥有最新的神经⽹络参数。不过这两个神经⽹络结构是完全⼀样的，只是⾥⾯的参数不⼀样，两个神经⽹络是为了固定

住⼀个神经⽹络(target_net)的参数，target_net是eval_net的⼀个历史版本，拥有eval_net很久之前的⼀组参数，⽽且这

组参数被固定⼀段时间，然后再被eval_net的新参数所替换，⽽eval_net是不断在被提升的。eval_net是得出Q估计，与Q

现实得到误差⽽更新⽹络的参数

DoubleDQN

Tips：过估计是指估计得值函数⽐真实值函数要⼤，其根源主要在于Q-Learning中的最⼤化操作，相⽐nature

DQN，DDQN的Q进⾏了更改，原本的Q=max(Q(s’,a_all))，现在的

现实nextnext

Q=Q(s’,argmax(Q(s’,a_all))，意思就是使⽤现成的eval_net估计除Q中的Qmax(s’,a’)的最⼤值，然后

您可能关注的文档

文档评论（0）

洞察 + 关注: 官方认证

文档贡献者

博士生

咨询Ta 进入空间

认证主体宁夏三科果农牧科技有限公司

IP属地宁夏

统一社会信用代码/组织机构代码: 91640500MABW4P8P13

1亿VIP精品文档

更多 >

强化学习（ReinforcementLearning）学习笔记.pdfVIP