22强化学习专题论坛.pptxVIP

下载本文档

0
0
约4.28万字
约 10页
2024-11-28 发布于北京
举报
版权申诉

22强化学习专题论坛.pptx

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

强化学习

●1●

美国密西根大学教授SatinderSingh：强化学习中的“发现”

整理人：智源社区吴继芳

第二届北京智源大会“强化学习”专题论坛上，SatinderSingh教授做了题为《强化学习中的发现》（DiscoveryinReinforcementLearning）的主题演讲。SatinderSingh，美国密西根大学教授，DeepMind首席科学家，AAAIFellow。

在本次演讲中，SatinderSingh教授系统地介绍了他与其学生、同事近期关于强化学习的两个研究工作。报告主要讨论如何尝试通过Meta-Gradient方法来学习发现以往强化学习智能体中需要手动设置的参数：内在奖励和辅助任务问题。针对于如何通过数据驱动的方式学习到内在奖励函数，他们提出了一个学习跨多生命周期（lifetime）内部奖励函数的Meta-Gradient框架，同时设计相关实验证明学习到的内在奖励函数能够捕获有用的规律，这些规律有助于强化学习过程中的exploration和exploitation，并且可以迁移到到不同的学习智能体和不同的环境中。针对于如何在数据中发现问题作为辅助任务，他们扩展通用辅助任务架构，参数化表示GeneralValueFunctions，并通过Meta-Gradient方法学习更新参数发现问题。实验证明这个方法可以快速发现问题来提高强化学习效果。下面是智源编辑为大家整理的讲座内容。

一、“发现”的含义

什么是强化学习中的“发现”？简单地思考，强化学习智能体中的参数可以分成两部分：一部分参数是从数据中学习发现得到，另一部分是由研究人员根据经验手动设置。SatinderSingh教授的报告主要讨论他和他的团队如何尝试通过Meta-Gradient方法来学习发现参数。在强化学习中，策略（policy）函数和价值（value）函数的参数值通常从数据中学习得到。对于那些通常手动设置的参数，如图1所示，表格中是最新论文中的一些例子以及它们的出处。这些例子都是采用Meta-Gradient方法发现参数。有些通过元学习（Meta-Laring）发现一个好的策略参数初始值。有些是用Meta-Gradient方法发现学习率（learingrate）和折扣因子（discountfactor）。有些是用Meta-Gradient方法发现内在奖励（intrinsicrewards）和辅助任务（auxiliarytasks）等。在本次报告中，SatinderSingh教授主要分享他和他的团队近期发表在ICML2020和NeurIPS2019中的两篇论文的相关研究工作（图1中标红的两篇）。虽然有许多不同的发现方法，比如：基于人口的方法（populationbasedmethod）、进化方法（revolutionmethod），但是SatinderSingh教授他们只是采用启发式搜索方法发现超参数值。这次报告的重点是采用Meta-Gradient方法发现参数。

图1：手动参数的最新研究方法

第一项工作由SatinderSingh教授和他的博生生共同完成的。文章的题目是：《WhatcanLearnedIntrinsicRewardsCapture?》[1]。

2.1研究动机

在强化学习中，智能体有很多结构存储知识。这些结构分为：常见结构（commonstructure）和非常见结构（uncommonstructure）。其中，常见结构有:策略（policies）、价值函数（valuefunctions）、环境模型（models）和状态表示（staterepresentations）等。在本次报告中，主要关注非常见结构：奖励函数（rewardfunction）。之所以是非常见结构是因为在强化学习中这些奖励通常都是根据环境决定，并且是不可改变的。在论文中，将强化学习问题中的奖励函数分为外在奖励（extrinsicrewards）和内在奖励（intrinsicrewards）。外在奖励用来衡量智能体的性能，通常是不能改变的。内在奖励是智能体内部的。在内在奖励中，有很多方法用来存储知识，但是这些方法都是手动设计的，比如：rewardshaping、novelty-basedreward、curiosity-drivenreward等。这些手动的内在奖励方法都依赖领域知识或者需要细致的微调才能起作用。在本次报告中，Satinder