- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第7章能计划的agent剖析
* * 第二部分 状态空间搜索 第7章 能计划的agent ……[蚂蚁]知道必须采取一定的方案,但是它不知道如何去做。就像一个一只手拿着茶杯另一只手拿着三明治的人,想用一根火柴点燃一根香烟。这个人会想出一个办法,在拿起香烟和火柴前,先放下茶杯和三明治。而蚂蚁将会放下三明治,拿起火柴,然后放下火柴拿起香烟,又放下香烟拿起三明治,再放下茶杯拿起香烟,直到最后它放下三明治拿起火柴。这种方式倾向于依靠一系列的事件来达到目标,是一种不带任何思考的愚蠢做法……,Wart非常惊奇地观察了这个过程,它变得很着急,直到厌倦。他想问蚂蚁为什么不事先考虑一下呢……。 ——T.H.White《The Once and Future King》,第13章 存储与计算 前面讲述的响应型agent的动作功能几乎没有做任何计算。从本质上讲,这些agent执行的动作或者由它们的设计者、或者通过学习、或者通过演化过程、或者是由以上几方面的组合而选择给它们的。这些动作能够通过表、产生规则描述给定特征向量动作的组合逻辑电路来实现。在计算机科学中,这种实现倾向于经典的时空权衡的“空间”一方。它们是基于空间或存储的实现——对设计者知识的汇编。 这样的反应型机器需要大量(也许是无法计算的)的存储。而且,这样一个反应型机器的设计者需要有超人类的预见能力:要为该机器能遇到的所有可能情况预期一个合适的反应。这启发我们可以考虑用时间换取空间,用适应性代替显式的设计。 最重要的是如果预期计算的结果能被自动地学习或演化,那么使用该结果的agent就能在那些连设计者都可能无法预见的情况下,也可以选择合适的动作来执行。 为了推测一个动作的结果,一个agent必须有一个自身所处环境的模型和一些结果模型,这些结果模型是agent对其环境模型的动作结果。因此,真正的动作只有在模拟环境是安全和有效时才会发生作用。 状态空间图 机器人把积木堆起来,使A在B的上面,B在C的上面, C在地板上。 任务: 假定:机器人能够对其每一个动作对环境的作用结果建模,它可以通过一对环境模型——一个代表动作执行前的环境状态,另一个代表动作执行后的环境状态——来建模。 该模式表示为: move(x,y) 其中x可以是A、B或C中的任何一个, y可以是A、B、C和地板中的任何一个。我们也知道这个方法中的一些实例(如move(A,A))是不可执行的动作。 这个方法的实例,如move(A,C)被称为算子(operator)。因此,算子是动作的模型。 用列表结构图标模型,可表示所有积木都在地面时能采用的所有动作的模型。 在一个模拟环境中,只向前看一步常常就能产生有用的预期效果,但是多看几步,也许直到任务完成的所有步骤都看到后就会发现一些捷径。 如果大量可区分的环境状态足够小,那么一个代表所有可能动作和状态的图就能被显式地存储。这种环境模型和动作图被称为状态空间图(state-space graph)。 为了发现到达指定目标的一组动作,机器人只要能在图中发现一条代表初始状态节点到目标节点的路径就可以了,然后就能从该路径边上的标签读出到达目标的动作。 通过图可以容易地找到路径,然而,为了发现路径,计算型agent要用各种图搜索过程。顺着路径到达目标的所有弧的算子可以组合成称为一个序列的计划。搜索这个序列的过程称为规划。这种从一系列动作结果得到的世界状态的预测过程称为规划方案。 为了获得目标而执行的一系列动作需要依靠若干假设: agent必须能在图节点中表示所有相关的环境状态,它必须有在一对节点问如何动作的精确模型。 动作必须总有其模型化的结果——也就是说,在agent的操纵系统中不能有错误或不确定性。 agent的感知系统必须精确地指定开始节点,并且没有任何其他的agent或动态过程会改变环境。 显式状态空间搜索 显式图搜索方法涉及到在图节点上传播“标记”。我们把开始节点标记为0,然后顺着图的边,连续传播更大的整数直至遇到目标节点。然后,顺着数字下降序列从目标点回溯到开始节点。顺着开始点到目标点路径上的动作序列就是获得目标应该采取的动作。这种方法需要O(n)步, n是图中的节点数目。 搜索过程中放在节点上的数字可以作为该节点上的一种人工式势函数,并且开始节点有一个全局最小值。相反路径(从目标到开始)顺着这个函数的“梯度”下降。 把标记一个节点的后继节点的过程称为扩展(expansion)。扩展将标记放在所有已标记过的节点的未标记的相邻节点上。 基于特征的状态空间 用图标模型标识节点来解释状态空间是相当直接的——可以
文档评论(0)