第10章计划、动作和学习资料.pptVIP

下载本文档

2
0
约3.06千字
约 24页
2017-06-11 发布于湖北
举报
版权申诉

第10章计划、动作和学习资料.ppt

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* * 第10章计划、动作和学习第二部分状态空间搜索我们已经探讨了在图中查找路径的几种技术，现在来研究这些方法如何被agent用于现实问题中。感知／计划／动作循环基于搜索的规划方法的功效依赖于几个很强的假设。由于以下原因，这些假设常常得不到满足： 1)知觉过程不可能总是提供环境状态的必需信息(由于噪声或者对重要的特性不敏感)。当两种不同的环境状态引起相同的传感器输入时，我们称这种情况为感知混淆(perceptual aliasing)。 2)动作并不总有其模型效果(由于模型不够精确，或者受动器系统在执行动作时偶尔会产生错误)。 3)可能在环境中有其他的物理过程或其他的agent(例如，在游戏中有对手)。这些过程可能会改变环境以致于干扰agent的动作。 4)外部作用的存在会引起其他的问题：在构造一个计划期间，环境可能变得与原来的计划不相干。这种困难使得花费太多的时间为一个agent进行计划而变得毫无意义。 5)agent可能在完成一个到达目标状态的搜索之前被要求动作。 6)即使agent有充分的计算时间，但是计算要求的空间资源不允许搜索进行到目标状态。感知／计划／动作循环有两种主要方法可以用来解决这些困难，同时又能保留基于搜索的计划的主要特征。一种是用概率方法来形式化知觉、环境和受动器的不确定性；另一种办法是用各种附加的假设和近似来消除这些困难的影响。处理动作的不确定效果的一种正式方法是假定对一定状态下的每一个可执行动作，结果状态由一个已知的概率分布给出。在这种情况下找到合适的动作被称为Markov决策问题(Markov decision problem , MDP) 。通过假定agent的传感设备在它的状态集上提供一个概率分布，可以解决有缺陷知觉的其他问题。发现动作则被称为局部可见的Markov决策问题(Partially observable Markov decision problem， POMDP) 。感知／计划／动作循环在这里不讨论正式的、基于概率的方法，而是提出一个叫感知／计划／动作(sense/plan/act)的结构，在很多应用中它避开了上述的一些复杂性。该结构的基本原理是：即使动作偶尔产生了没有预料的结果，或者agent有时不能决定它处于哪一种环境状态下，但是通过保证agent从它的执行环境中得到连续的反馈，这些困难可以被充分地解决。感知／计划／动作循环确保连续反馈的一个方法是计划一个动作序列，只执行这个序列中的第一个动作，感知结果环境状态，重新计算开始节点，然后重复上述过程。这种方式，选择动作的agent被叫做感知／计划／动作agent。然而为了使这个方法有效，计算一个计划的时间必须比每个动作执行时间要少。在良性环境中(容忍几个错误步骤)，感知和动作中的错误在感知／计划／动作循环序列中应“达到平均数”。感知／计划／动作循环感知／计划／动作循环逼近搜索定性地讲，只要第一个动作有缩短到达目标距离的趋势(平均情况)，经感知／计划／动作循环的多次迭代将最终到达目标。放宽产生最优计划的要求常会减少找到一个计划的计算代价。可以对以产生计划的质量为代价的有限计算／时间资源的搜索算法进行修改，这些计划可能不是最佳的，或者可能不是总能可靠地到达目标状态。即使这个计划不是最优的(甚至也不正确)，这些技术的应用也能被合并到感知／计划／动作循环中。一个A*类型的搜索可用于这两种方法：对前者，我们用一个不可接纳的启发式函数；对后者，在到达目标前(用可接纳的或不可接纳的启发式函数)退出搜索。在到达目标前退出搜索是任意时间算法(anytime algorithm) 的一个例子。任意时间算法能在任何时刻停止，结果的质量会随着运行时间的增加而改善。可以从两个方面来减少代价。一是能找到到达目标的一条完整路径但不必要求它是最优的；或者是能找到一条局部的路径，它不要求已达到目标节点。逼近搜索逼近搜索孤岛驱动搜索在孤岛驱动(island-driven)搜索中，来自问题领域的启发性知识被用于在搜索空间中建立一个“岛节点”序列，假定有好的路径通过这个搜索空间。例如，在计划通过有障碍的地形时，这些岛就是相应的山。假如n0是开始节点， ng是目标节点，(n1，n2，．．．，nk)是这些岛的一个序列。我们用n0作为开始节点，n1作为目标节点，开始一个启发式搜索(用一个同那个目标相适应的启发式函数)。当搜索找到了一条到n1的路径时，就用n1作起始点