8_泛化与函数逼近资料.doc

下载文档 降价啦

5
0
约1.97万字
约 26页
2016-11-27 发布于湖北
举报
保障服务

8_泛化与函数逼近资料.doc

第八章泛化与函数逼近翻译：金海东到目前为止，值函数的估计都是用表格来表示，每个状态或状态-动作对对应到表格中一项。这是一种特别清晰并且有意义的做法，但是这种做法只能用于状态和动作数量不多的任务，原因不仅在于大的表格会占用很多存储空间，还在于精确填满这张表格需要的计算时间和数据。换句话说，关键问题在于泛化（generalization），如何把有限状态子集上的学习经验，泛化到很大的状态子集上并且逼近得很好呢？这是一个非常重要的问题。在用到强化学习的许多任务中，大多数当前遇到的状态，以后可能再也不会遇到。在具有连续变量或者复杂感知的状态动作空间中，这种情况常常会出现。对于这种类型的任务，唯一的学习方法就是将前面经历过的状态，泛化到那些从未经历过的状态。幸运的是，人们已经大量研究过如何根据样例泛化，没有必要发明完全新的方法用于强化学习，只需将现存的泛化方法与强化学习结合起来。这种泛化通常称为函数逼近（function approximation），因为它从目标函数（如值函数）提取样本，并试着从样本泛化从而构造出整体的函数逼近。函数逼近是监督学习（supervised learning）的手段之一，监督学习是机器学习、人工神经网络、模式识别以及统计学中曲线拟合等领域的研究主题。正如本章所述，从原理上讲，这些领域研究出的任何方法，都可用于强化学习。 8.1使用函

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

8_泛化与函数逼近资料.doc