5翻译-5章知识迁移介绍.docxVIP

下载本文档

3
0
约1.73万字
约 19页
2016-11-28 发布于湖北
举报
版权申诉

5翻译-5章知识迁移介绍.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

查看更多

PAGE \* MERGEFORMAT19 第五章强化学习中的迁移 — 框架与综述 Alessandro Lazaric 摘要：强化学习中的迁移主要研究从一组源任务到一个目标任务的知识迁移及其方法，这是一个全新的研究领域。只要学习任务之间具有相似性，目标任务的学习算法就可以利用从源任务迁移过来的知识，提高目标任务学习算法的性能（例如减少算法达到近似最优解需要的样本数量）。本文对目前强化学习中知识迁移的主要场景进行了区分，给出了常规迁移问题的形式化描述，并回顾了强化学习中一些重要的知识迁移方法。 5.1 介绍不相同但有相关性任务之间的知识迁移可以提高机器学习的性能，这种思想主要来源于心理学和认知科学的研究。一些心理学的研究（如Thorndike and Woodworth, 1901; Perkins et al, 1992）表明，人类求解某个任务获得的知识，通过迁移可以用于新的相似任务的学习，新任务因而可以学得更快更好。机器学习中，研究知识迁移的目的是设计迁移方法：分析从一组源任务收集的知识（如样本、解决方案等），再把这些知识迁移至目标任务以偏置（bias）目标任务的学习过程，并获得好的结果（hypotheses）。如果迁移方法成功识别出了源任务与目标任务之间的相似性，则迁移的知识就有可能提高目标任务的学习性能。这种保留并复用知识以改进学习算法的思想源于早期机器学习的研究。实际上人们广泛认识到，对于任何学习算法来说，好的表示方法（representation）非常关键，目前机器学习研究的很大一块，就是研究如何根据不同任务自动改变表示方法。大部分迁移学习的研究（Fawcett et al, 1994）借鉴机器学习中经常采用的单一问题视角来限定有效方法的定义，从而获得具有归纳结构的好的表示方法(Most of the research in transfer learning (Fawcett et al, 1994) identified the single-problem perspective usually adopted in ML as a limit for the definition of effective methods for the inductive construction of good representations.)。但是另一方面，心理学和神经学的研究表明，学习任务是相关的，知识是可以保留并可以迁移的，人们认为这是最合适的视角来设计有效的归纳偏置技术 (On the other hand, taking inspiration from studies in psychology and neuroscience, the transfer point of view, where learning tasks are assumed to be related and knowledge is retained and transferred, is considered as the most suitable perspective to design effective techniques of inductive bias)。强化学习中的迁移在一些监督学习问题如推荐系统、医疗决策系统、文本分类以及一些常规游戏中，迁移算法已成功提升了学习算法的性能。近些年，迁移学习的研究也聚焦到强化学习方向，研究强化学习算法如何从知识迁移中获益。传统强化学习方法已经提供了学习机理，在没有人类监督的情况下也能学习到任务的解决方案。但是，如果没有人类领域专家先验知识的帮助，强化学习算法在实际问题中学习到一个近似最优解所需要的样本数量是难以企及的。并且学习任务一旦发生改变，学习过程必须从零重新开始，即使在相似问题已经解决的情况下也是如此。迁移算法从一组已经解决的相似的源任务（如训练任务）中收集知识，用于改进新任务（如测试任务）的学习。这能极大减少样本数量，并显著提高学习精度。本章目标与监督学习不同，强化学习问题的特征是具有大量的要素(reinforcement learning problems are characterized by a large number of elements)，如动态性和奖赏函数，根据任务之间的差异和相似性可以定义很多不同的迁移场景。尽管近期发表的大量有关强化学习知识迁移的著作涵盖了许多不同方面的迁移问题，但是因为有多种不同的方法和视角处理这些复杂且具挑战性的问题，很难对强化学习迁移的最新研究做清晰的全景描述。本章的目标是，对知识迁移的主要场景进行形式化描述，并根据被迁移的知识种类对迁移算法进行分类。Taylor and Stone

您可能关注的文档

最近下载

文档评论（0）

w5544434 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

相关文档

版权处理: 版权声明; 侵权处理; 免责声明; 致被侵权者一封信; 网站诺言

使用帮助: 用户协议; 隐私政策; 上传下载; 投稿帮助; 文档保障服务承诺

文赚学院: 文赚入门; 工具技巧; 官方动态; 文档分析

关于: 关于网站; 联系我们; 企业文化; 公司优势; 寻找合作

更多: 机构入驻; 内容整治报告; 原创力公益; 版权公示; 处罚记录; 分享赚钱

: 原创力文档APP下载

: 关注微信公众号

原创力文档从2008开站以来，已有超数十万网友上传了数亿文档，原创力文档定位于“知识资源平台、知识服务平台”；本网站为内容提供方提供“创作营收”解决方案：你只需要简单地上传及管理你的内容，而后续的宣传/推广/内容分发/售出下发/发票开具/知识增值创收都由我们完成，让你无后顾之忧，让你安心创作及上传更多优质地内容及提供知识服务！上传QQ群（最新）：751299218。
有任何问题，请随时联系智能客服，侵权专属客服QQ：2885784724！其它问题点击联系我们！本站内容，未经授权，不得采集、搬运！包括但不限于Al采集后用于训练，侵权必究！

公安局备案号:51011502000106|工信部备案号:蜀ICP备08101938号-1|ICP经营许可证/EDI许可证:川B2-20180569|公司营业执照|出版物经营许可证:成新出发高新字第046号|网信算备:510107145616301250011号
© 2010-2025 max.book118.com 原创力文档. All Rights Reserved 四川文动网络科技有限公司违法与不良信息举报电话：18582317992