- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
强化学习技术有着相当长的历史,但直到80年代末90年代初,强化学习技术才在人工智能, 机器
学习中得到广泛应用山,强化学习是一种从环境状态到行为映射的学习技术.
强化学习的思想来自于条件反射理论和动物学习理论.它是受到动物学习过程启发而得到的一 种仿
生算法,是一种重要的机器学习方法⑵.Agent通过对感知到的环境状态采取各种试探动作,获 得环境
状态的适合度评价值(通常是一个奖励或惩罚信号),从而修改自身的动作策略以获得较大的奖 励或较
小的惩罚,强化学习就是这样一种赋予Agent学习自适应性能力的方法.
本文全面介绍了强化学习的基本原理,学习算法及其应用情况,最后讨论了多机器人系统中强 化学
习的研究热点问题.
1强化学习的基本原理
1.1强化学习的原理和结构
强化学习把学习看作试探过程,基本模型如图1所示.在强化学习中,Agent选择一个动作作 用
于环境,环境接收该动作后发生变化,同时产生一个强化信号(奖或罚)反馈给Agent, Agent再 根据
强化信号和环境的当前状态再选择下一个动作,选择的原则是使受到正的报酬的概率增大.选 择的动
作不仅影响立即强化值而且还影响下一时刻的状态及最终强化值.强化学习的目的就是寻找一 个最优策
收稿 F1 期:2006-08-05
作者简介:黄炳强(1975-),男(汉族),博士生.
DOI:10.1408 l/j.cnki.hgdxb.2006.06.007
第6期黄炳强,等:强化学习原理、算法及应用35
略,使得Agent在运行中所获得的累计报酬值最大⑶.
1.2马尔可夫决策过程(MDP)
很多强化学习问题基于的一个关键假设就是Agent与环境之间的交互可以被看成一个马尔可夫 决策
过程(MDP),因此强化学习的研究主要集中于对Markov的问题处理.
Markov决策过程的模型可以用一个四元组(,,
,)表示:为可能的状态集合,为可能的动作集
合,:x是状态转移函数;:x是奖赏函
数.在每一个时间步,环境处于状态集合中的某一 状态,Agent选择动作集合中的一个动作,收到 即时奖赏,并转移至下一状态.状态转移函数
,,表示在状态执行动作转移到状态的概
率,可以用.表示.状态转移函数和奖赏函数都
是随机的.Agent目标就是寻求一个最优控制策略,使 值函数最大.
1.3搜索策略 Agent对动作的搜索策略主要有贪婪策略和随机策 略.贪婪策略总是选择佔计报酬为最大的动作.当报酬 函数收敛到局部最优时,贪焚策略无法脱离局部最优点. 为此,可釆用■贪婪策略(-greedy);随机策略是用一 个随机分布來根据各动作的评价值确定其被选择的概率, 其原则是保证学习开始时动作选择的随机性较大,随着 学习次数的增大,评价值最大的动作被选择的相对概率 也随之增大,一种常用的分布是Boltzmann分布⑷. 所有的强化学习算法的机制都是基于值函数和策略 之间的相互作用,如图2所示.利用值函数可以改善策 略,而利用对策略的评价又可以改进值函数.强化学习 在这种交互过程中,逐渐得到最优的值函数和最优策略.
2强化学习的算法
到目前为止,研究者们提出了很多强化学习算法,近年来对强化学习算法的研究己由算法本身 逐渐 转向研究经典算法在各种复杂环境中的应用,较有影响的强化学习算法有TD算法,Q学习算 法,Sarsa 算法,Dynn算法,R学习算法,H学习等,还有一些改进算法,如滞后更新多步Q-学习算法 等.
2.1 瞬时差分算法 TD (Temporal Difference Algorithm)
这是Sutton在1988年提出的用于解决时间信度分配问题的著名方法皿TD方法能够有效的解 决强
化学习问题中的暂态信用分配问题,可被用于评价值函数的预测.儿乎所有强化学习算法屮评 价值的预 测法均可看作TD方法的特例,以至于通常所指的强化学习实际上就是TD类强化学习. 一步TD算法,即TD (0)算法,是一种自适应的策略迭代算法,又名自适应启发评价算法
(Adaptive
Heuristic Critic, AHC).所谓一步TD算法,是指Agent获得的瞬时报酬值仅回退一步,也就 是说只是修 改了相邻状态的估计值.TD (0)算法如式(I).
= + + (1)
其中:为步长;指在环境状态下获得报酬和;是指环境状态转移到时获得的报酬折扣和.
图I强化学习的基本模型
Fig. 1 The reinforcement learning framework
图2值函数与策略间的相互作用图
Fig. 2 Conclation between value function and policy
Agent
状态
奖赏
动
TD算法可扩充到TD ()隽法,即Agent获得的瞬时报酬值可回退任意步.TD ()算法的收敛速
您可能关注的文档
最近下载
- 提高住院患者大小便标本送检率PDCA.pptx VIP
- 安全生产五落实到位规定.doc VIP
- 基础工程课程设计计算书.doc VIP
- 罗克韦尔(AB) PowerFlex 750 系列交流变频器编程手册 中文.pdf VIP
- Yamaha 雅马哈 乐器音响 CL5 CL3 CL1 V4.0 Reference Manual [中文] 用户手册.pdf
- 外周T细胞淋巴瘤课件.pptx
- 中国电信以太智能专线STN(Smart Transport Network)专线培训.pdf VIP
- 宣传制作类项目服务方案.docx VIP
- 小学残疾儿童送教上门教案(40篇).pdf VIP
- 加油站从业人员安全培训.ppt
原创力文档


文档评论(0)