- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
深度强化学习
深度强化学习(DRL)已成为人工智能研究的热点之一。它已被广泛应用于端
到端控制、机器人控制、推荐系统、自然语言对话系统等各个领域。本文对深度
RL算法及其应用进行了分类,并将现有的DRL算法分为基于模型的方法、无模
型的方法和先进RL方法进行介绍。
一、无模型强化学习
DRL的发展仍处于起步阶段。学术研究集中在确定性和静态环境中,状态主
要是离散的和充分观察。因此,大多数RL工作都是基于无模型方法的。无模型
RL可以通过大量样本估计agent的状态、价值函数和奖励函数,从而优化以在s
状态下做a动作获得更多奖励为目标的行为策略。由于其实现简单,开放资源丰
富,无模型RL吸引了越来越多的学者进行深入的研究。
1.基于值函数的RL
1.1深度Q-网络深度Q-网络(DQN)(Mnihetal.,2013,2015)是DRL的
典型代表,它使用卷积神经网络(CNN)(Krizhevskyetal.,2012)作为模型,
并使用Q-learning的变体进行训练(Kröse,1995)。DQN使用最大Q值作为低维
动作输出,解决高维状态输入(如游戏画面的原始像素)的令人困惑的表示。
此外,DQN将奖励值和误差项减小到一个有限的区间,从而减轻了非线性网络所
代表的值函数的不稳定性。与Q-learning算法不同的是,DQN将学习过程与训
练过程同步,主要改进如下:(1)使用经验重放缓冲区(Lin,1992)来减少样本之
间的关联;(2)深度神经网络——目标网络——用于行为-价值函数逼近。
1.2DQN的发展随着DQN算法的成功,提出了大量的改进算法。在这一小节
中,我们主要关注与系统的整体结构、训练样本的构建和神经网络的结构相关的
代表性方法。
双深度Q-网络(DoubledeepQ-network,DDQN)(vanHasseltetal.,2016)
通过自举行为的解耦选择和评估,降低了Q-learning过高估计偏差的风险。因
为经验转换从经验回放中统一均匀采集,DQN显然没有充分考虑每个样本的重要
性。改进的经验重演机制DDQN(Schauletal.,2016)通过计算经验池中每个
样本的优先级,增加有价值训练样本的概率来解决这一问题。
2.基于策略梯度的RL
强化(Williams,1992)是策略梯度(PG)算法的原型。与基于值的RL相比,
基于策略的RL不仅避免了由于值函数误差引起的策略退化,而且更容易应用于
连续动作空间问题。具体来说,基于值的方法,如Q-learning和SARSA,需要
一步操作才能计算出最大值,这在连续空间或高维空间中是很难找到的。此外,
基于值的方法可以学习隐式策略,而基于策略的RL方法可以学习随机策略。也
就是说,在基于价值的方法中,通过政策改进得到的政策都是确定性的政策,会
遇到一些在石头剪刀布等任务中无法解决的问题。基于策略的方法也有一些共同
的缺点:(1)数据效率或样本利用率低;(2)方差较大,难以收敛。两个典型的改
进:(1)基于演员评论(actor-critic)的改进框架;(2)基于信任域的改进方法。
二、基于模型的强化学习
事实上,知道转移动力学p(st+1|st,at)会使问题解决变得更容易,这种动
力学被称为模型。基于模型的方法是学习转换动力学的算法,它决定了在当前状
态st执行动作at下一个状态将会是st+1在当前状态,接着方法将找出如何选
择动作。简而言之,这种算法学习系统动力学模型,并使用最优控制选择动作。
基于模型的RL是从最优控制领域发展而来的。通常,具体问题通过模型如高斯
过程和贝叶斯网络建立,然后通过机器学习方法或最优控制方法解决,如模型预
测控制(MPC),线性二次调节器(LQR),线性二次高斯控制。与无模型的RL相比,
基于模型的RL以数据高效的方式学习
文档评论(0)