- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE \* MERGEFORMAT19
第五章 强化学习中的迁移 — 框架与综述
Alessandro Lazaric
摘要:强化学习中的迁移主要研究从一组源任务到一个目标任务的知识迁移及其方法,这是一个全新的研究领域。只要学习任务之间具有相似性,目标任务的学习算法就可以利用从源任务迁移过来的知识,提高目标任务学习算法的性能(例如减少算法达到近似最优解需要的样本数量)。本文对目前强化学习中知识迁移的主要场景进行了区分,给出了常规迁移问题的形式化描述,并回顾了强化学习中一些重要的知识迁移方法。
5.1 介绍
不相同但有相关性任务之间的知识迁移可以提高机器学习的性能,这种思想主要来源于心理学和认知科学的研究。一些心理学的研究(如Thorndike and Woodworth, 1901; Perkins et al, 1992)表明,人类求解某个任务获得的知识,通过迁移可以用于新的相似任务的学习,新任务因而可以学得更快更好。机器学习中,研究知识迁移的目的是设计迁移方法:分析从一组源任务收集的知识(如样本、解决方案等),再把这些知识迁移至目标任务以偏置(bias)目标任务的学习过程,并获得好的结果(hypotheses)。如果迁移方法成功识别出了源任务与目标任务之间的相似性,则迁移的知识就有可能提高目标任务的学习性能。这种保留并复用知识以改进学习算法的思想源于早期机器学习的研究。实际上人们广泛认识到,对于任何学习算法来说,好的表示方法(representation)非常关键,目前机器学习研究的很大一块,就是研究如何根据不同任务自动改变表示方法。
大部分迁移学习的研究(Fawcett et al, 1994)借鉴机器学习中经常采用的单一问题视角来限定有效方法的定义,从而获得具有归纳结构的好的表示方法(Most of the research in transfer learning (Fawcett et al, 1994) identified the single-problem perspective usually adopted in ML as a limit for the definition of effective methods for the inductive construction of good representations.)。但是另一方面,心理学和神经学的研究表明,学习任务是相关的,知识是可以保留并可以迁移的,人们认为这是最合适的视角来设计有效的归纳偏置技术 (On the other hand, taking inspiration from studies in psychology and neuroscience, the transfer point of view, where learning tasks are assumed to be related and knowledge is retained and transferred, is considered as the most suitable perspective to design effective techniques of inductive bias)。
强化学习中的迁移 在一些监督学习问题如推荐系统、医疗决策系统、文本分类以及一些常规游戏中,迁移算法已成功提升了学习算法的性能。近些年,迁移学习的研究也聚焦到强化学习方向,研究强化学习算法如何从知识迁移中获益。传统强化学习方法已经提供了学习机理,在没有人类监督的情况下也能学习到任务的解决方案。但是,如果没有人类领域专家先验知识的帮助,强化学习算法在实际问题中学习到一个近似最优解所需要的样本数量是难以企及的。并且学习任务一旦发生改变,学习过程必须从零重新开始,即使在相似问题已经解决的情况下也是如此。迁移算法从一组已经解决的相似的源任务(如训练任务)中收集知识,用于改进新任务(如测试任务)的学习。这能极大减少样本数量,并显著提高学习精度。
本章目标 与监督学习不同,强化学习问题的特征是具有大量的要素(reinforcement learning problems are characterized by a large number of elements),如动态性和奖赏函数,根据任务之间的差异和相似性可以定义很多不同的迁移场景。尽管近期发表的大量有关强化学习知识迁移的著作涵盖了许多不同方面的迁移问题,但是因为有多种不同的方法和视角处理这些复杂且具挑战性的问题,很难对强化学习迁移的最新研究做清晰的全景描述。本章的目标是,对知识迁移的主要场景进行形式化描述,并根据被迁移的知识种类对迁移算法进行分类。Taylor and Stone
文档评论(0)