深度强化学习方法.pdfVIP

下载本文档

0
0
约7.5千字
约 8页
2024-12-21 发布于甘肃
举报
版权申诉

深度强化学习方法.pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

深度强化学习

深度强化学习(DRL)已成为人工智能研究的热点之一。它已被广泛应用于端

到端控制、机器人控制、推荐系统、自然语言对话系统等各个领域。本文对深度

RL算法及其应用进行了分类，并将现有的DRL算法分为基于模型的方法、无模

型的方法和先进RL方法进行介绍。

一、无模型强化学习

DRL的发展仍处于起步阶段。学术研究集中在确定性和静态环境中，状态主

要是离散的和充分观察。因此，大多数RL工作都是基于无模型方法的。无模型

RL可以通过大量样本估计agent的状态、价值函数和奖励函数，从而优化以在s

状态下做a动作获得更多奖励为目标的行为策略。由于其实现简单，开放资源丰

富，无模型RL吸引了越来越多的学者进行深入的研究。

1.基于值函数的RL

1.1深度Q-网络深度Q-网络(DQN)(Mnihetal.，2013,2015)是DRL的

典型代表，它使用卷积神经网络(CNN)(Krizhevskyetal.，2012)作为模型，

并使用Q-learning的变体进行训练(Kröse,1995)。DQN使用最大Q值作为低维

动作输出，解决高维状态输入(如游戏画面的原始像素)的令人困惑的表示。

此外，DQN将奖励值和误差项减小到一个有限的区间，从而减轻了非线性网络所

代表的值函数的不稳定性。与Q-learning算法不同的是，DQN将学习过程与训

练过程同步，主要改进如下:(1)使用经验重放缓冲区(Lin,1992)来减少样本之

间的关联;(2)深度神经网络——目标网络——用于行为-价值函数逼近。

1.2DQN的发展随着DQN算法的成功，提出了大量的改进算法。在这一小节

中，我们主要关注与系统的整体结构、训练样本的构建和神经网络的结构相关的

代表性方法。

双深度Q-网络(DoubledeepQ-network,DDQN)(vanHasseltetal.，2016)

通过自举行为的解耦选择和评估，降低了Q-learning过高估计偏差的风险。因

为经验转换从经验回放中统一均匀采集，DQN显然没有充分考虑每个样本的重要

性。改进的经验重演机制DDQN(Schauletal.，2016)通过计算经验池中每个

样本的优先级，增加有价值训练样本的概率来解决这一问题。

2.基于策略梯度的RL

强化(Williams,1992)是策略梯度(PG)算法的原型。与基于值的RL相比，

基于策略的RL不仅避免了由于值函数误差引起的策略退化，而且更容易应用于

连续动作空间问题。具体来说，基于值的方法，如Q-learning和SARSA，需要

一步操作才能计算出最大值，这在连续空间或高维空间中是很难找到的。此外，

基于值的方法可以学习隐式策略，而基于策略的RL方法可以学习随机策略。也

就是说，在基于价值的方法中，通过政策改进得到的政策都是确定性的政策，会

遇到一些在石头剪刀布等任务中无法解决的问题。基于策略的方法也有一些共同

的缺点:(1)数据效率或样本利用率低;(2)方差较大，难以收敛。两个典型的改

进:(1)基于演员评论(actor-critic)的改进框架;(2)基于信任域的改进方法。

二、基于模型的强化学习

事实上，知道转移动力学p(st+1|st,at)会使问题解决变得更容易，这种动

力学被称为模型。基于模型的方法是学习转换动力学的算法，它决定了在当前状

态st执行动作at下一个状态将会是st+1在当前状态，接着方法将找出如何选

择动作。简而言之，这种算法学习系统动力学模型，并使用最优控制选择动作。

基于模型的RL是从最优控制领域发展而来的。通常，具体问题通过模型如高斯

过程和贝叶斯网络建立，然后通过机器学习方法或最优控制方法解决，如模型预

测控制(MPC)，线性二次调节器(LQR)，线性二次高斯控制。与无模型的RL相比，

基于模型的RL以数据高效的方式学习

您可能关注的文档

文档评论（0）

166****9097 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

深度强化学习方法.pdfVIP