- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
8_泛化与函数逼近.
第八章 泛化与函数逼近
翻译:金海东
到目前为止,值函数的估计都是用表格来表示,每个状态或状态-动作对对应到表格中一项。这是一种特别清晰并且有意义的做法,但是这种做法只能用于状态和动作数量不多的任务,原因不仅在于大的表格会占用很多存储空间,还在于精确填满这张表格需要的计算时间和数据。换句话说,关键问题在于泛化(generalization),如何把有限状态子集上的学习经验,泛化到很大的状态子集上并且逼近得很好呢?
这是一个非常重要的问题。在用到强化学习的许多任务中,大多数当前遇到的状态,以后可能再也不会遇到。在具有连续变量或者复杂感知的状态动作空间中,这种情况常常会出现。对于这种类型的任务,唯一的学习方法就是将前面经历过的状态,泛化到那些从未经历过的状态。
幸运的是,人们已经大量研究过如何根据样例泛化,没有必要发明完全新的方法用于强化学习,只需将现存的泛化方法与强化学习结合起来。这种泛化通常称为函数逼近(function approximation),因为它从目标函数(如值函数)提取样本,并试着从样本泛化从而构造出整体的函数逼近。函数逼近是监督学习(supervised learning)的手段之一,监督学习是机器学习、人工神经网络、模式识别以及统计学中曲线拟合等领域的研究主题。正如本章所述,从原理上讲,这些领域研究出的任何方法,都可用于强化学习。
8.1使用函数逼近的值预测
与前面一样,这里也从预测问题着手研究。预测问题是指根据策略生成的经历来估计状态值函数。本章的不同之处在于,时刻逼近的值函数不是表示成一个表格,而是表示成一个带有参数向量的函数。这意味着值函数完全取决于,在不同的时间步,只有改变才会跟着改变。例如,可能是人工神经网络计算的函数,向量表示神经网络连接权重,通过调整权重,任意函数都能由这个网络来实现。或者可能是决策树计算的函数,其参数包含在向量中,这些参数定义了决策树分裂结点和叶子结点的值。通常情况下,参数的数量(即分量的个数)比状态的数量要少得多,并且改变一个参数可以改变很多状态的估计值。因此,单个状态的值被备份,这个变化就会从该状态泛化出去从而影响到很多其他状态的值。
本书把所有预测方法都描述为备份,也就是说,更新某个估计值函数,即意味着把该函数特定状态的值转换为这些状态的“备份值”。(译注: 此处为update和backup的定义。更新某个函数,为update,更新某个状态,为backup。本章所有back up翻译为“备份”,update翻译为“更新”。)。这里用表示单个备份,其中是被备份的状态,是备份值或者说的估计值要转向的目标。例如,用于值预测的DP备份为,蒙特卡罗备份为,备份为,通用备份为。DP实例中,备份的是任意状态,而其他实例中,备份的是在经历(可能是模拟的经历)中遇到的状态。
很自然可以这样理解:每次备份相当于指定了估计值函数的一个输入-输出样例。从某种意义上说, 意味着状态的估计值进一步接近。因此,用于实现备份的真正更新已经不重要了:估计值对应的表格项只是简单地向靠拢了一小步。我们可以使用任意复杂且成熟的函数逼近方法实现备份。这些函数逼近方法的常规输入,即是它们试图逼近的函数所期望的输入-输出样例。把每次备份简单地看作训练样例,就能使用基于函数逼近的值预测方法。这样,我们把函数逼近方法产生的近似函数,解释为估计的值函数。
以上述方式把每次备份当成常规训练样本,就能使用现存的诸多函数逼近方法进行值预测。从原理上讲,可以使用任何基于样例的监督学习方法,包括人工神经网络、决策树以及各种类型的多元回归。但是并非所有的函数逼近方法都适合在强化学习中使用,大多数高级神经网络和统计学方法都假定存在静态的用于多传递的训练集。在强化学习中,能够实现在线学习非常重要,此时它与环境或者环境模型交互。要做到这一点,要求学习方法能够从增量获得的数据中进行有效学习。此外,强化学习通常要求函数逼近方法能够处理非固定目标函数(即不断改变的目标函数)。例如在GPI控制方法中,我们希望在改变时也能学习到。如果训练样本的目标值是由自举方法计算的(如DP和TD方法),即使策略维持不变,这些目标值也是非固定的。如果一种学习方法处理不好非固定问题,就不太适合用于强化学习。
如何测定函数逼近的性能呢,大多数监督学习寻求最小化输入分布上的均误方差(MSE, mean-squared error)。在值预测问题中,输入是状态,目标函数是精确的值函数,因此,使用参数向量的近似函数的均方误差是:
(8.1)
其中是表示不同状态的误差权重的分布。状态数量要比分量个数多得多,通常不可能把所有状态的误差都降为0,因此这个分布十分重要。因此,函数逼近器的灵活性是一个难得的资源,要想
文档评论(0)