8_泛化与函数逼近资料.doc

第八章 泛化与函数逼近 翻译:金海东 到目前为止,值函数的估计都是用表格来表示,每个状态或状态-动作对对应到表格中一项。这是一种特别清晰并且有意义的做法,但是这种做法只能用于状态和动作数量不多的任务,原因不仅在于大的表格会占用很多存储空间,还在于精确填满这张表格需要的计算时间和数据。换句话说,关键问题在于泛化(generalization),如何把有限状态子集上的学习经验,泛化到很大的状态子集上并且逼近得很好呢? 这是一个非常重要的问题。在用到强化学习的许多任务中,大多数当前遇到的状态,以后可能再也不会遇到。在具有连续变量或者复杂感知的状态动作空间中,这种情况常常会出现。对于这种类型的任务,唯一的学习方法就是将前面经历过的状态,泛化到那些从未经历过的状态。 幸运的是,人们已经大量研究过如何根据样例泛化,没有必要发明完全新的方法用于强化学习,只需将现存的泛化方法与强化学习结合起来。这种泛化通常称为函数逼近(function approximation),因为它从目标函数(如值函数)提取样本,并试着从样本泛化从而构造出整体的函数逼近。函数逼近是监督学习(supervised learning)的手段之一,监督学习是机器学习、人工神经网络、模式识别以及统计学中曲线拟合等领域的研究主题。正如本章所述,从原理上讲,这些领域研究出的任何方法,都可用于强化学习。 8.1使用函

文档评论(0)

1亿VIP精品文档

相关文档