- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2014 年第 3 期
深圳职业技术学院学报
No.3, 2014
*
大数据环境下的增强学习综述
仵 博,冯延蓬,孟宪军,江建举,何国坤
(深圳职业技术学院 教育技术与信息中心,广东 深圳 518055)
摘 要:在大数据应用领域,如何快速地对海量数据进行挖掘是当前大数据应用基础研究的热点和难点,
也是制约大数据真正应用的关键.而机器学习是解决该问题的有效途径,本文综述抽象增强学习、可分解增强
学习、分层增强学习、关系增强学习和贝叶斯增强学习等五类增强学习方法的研究进展,分析了它们的优势和
缺点,指出将监督学习或半监督学习与增强学习相结合是大数据机器学习的有效方法.
关键词:大数据;增强学习;维数灾
中图分类号:TP18 文献标志码:B 文章编号:1672-0318 (2014)03-0071-05
增强学习(Reinforcement Learning,简称 RL ) 少学习参数数量、避免后验分布全采样和最小化探
是一种有效的最优控制学习方法,实现系统在模 索次数等方面,达到算法快速收敛的目的,实现探
型复杂或者不确定等条件下基于数据驱动的多阶 索和利用两者之间的最优化平衡.当前现有算法按
段优化学习控制,是近年来一个涉及机器学习、 照类型可分为五类:1)抽象增强学习;2)可分解
控制理论和运筹学等多个学科的交叉研究方 增强学习;3)分层增强学习;4)关系增强学习;5)
向.增强学习因其具有较强的在线自适应性和对 贝叶斯增强学习.
复杂系统的自学能力,使其在机器人导航、非线
[1-4] 1 抽象增强学习
性控制、复杂问题求解等领域得到成功应用 .
经典增强学习算法按照是否基于模型分类, 抽象增强学习( Abstraction Reinforcement
可分为基于模型(Model-based )和模型自由 Learning,简称 ARL )的核心思想是忽略掉状态向
(Model-free )两类.基于模型的有TD 学习、 量中与当前决策不相关的特征,只考虑那些有关的
Q 学习、SARSA 和 ACTOR-CRITIC 等算法.模 或重要的因素,达到压缩状态空间的效果[9].该类
型自由的有 DYNA-Q 和优先扫除等算法.以上 算法可以在一定程度上缓解“维数灾”问题.状态
经典增强学习算法在理论上证明了算法的收敛 抽象原理如图 1 所示.
性,然而,在实际的应用领域,特别是在大数 目前,状态抽象方法有状态聚类、值函数逼近
据环境下,学习的参数个数很多,是一个典型 和自动状态抽象等方法.函数逼近方法难于确保增
的 NP 难问题,难以最优化探索和利用两者之间 强学习算法能够收敛,采用线性拟合和神经网络等
的平衡[5-8].因此,经典增强学习算法只在理论上 混合方法来实现函数逼近是当前的研究热点和方
有效. 向.状态聚类利用智能体状态空间中存在的对称性
为此,近年来的增强学习研究主要集中在减 来压缩状态空间,实现状态聚类.自动状态抽象增
收稿日期:2013-10-14
文档评论(0)