- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机chap10
第1 0章 计划、动作和学习 考虑图搜索计划方法时所做的假设;由于以下原因,这些假设常得不到满足. 知觉过程对环境提供的信息不敏感 动作并不准有模型效果,在执行动作时产生差错 环境中有其他agent的影响 Agent可能在完成到达目标的搜索前被要求动作 提出一个能满足这种理想假设的a g e n t结构 讨论如何修改一些搜索算法以减少它们对时间和空间的要求 讨论agent如何学习启发式函数和动作模型。 两种方法 有两种方法可用来解决这些问题,同时又能保证基于搜索的计划 一种是用概率方法来形式化知觉、环境和受动器的不确定性; 另一种办法是用各种附加的假设(局部理想化处理)和近似的消除这些因素的影响。 M a r k o v决策问题 处理动作的不确定效果的一种正式方法是假定对一定状态下的每一个可执行动作,结果状态由一个已知的概率分布给出。 在这种情况下找到合适的动作被称为M a r k o v决策问题。 通过假定a g e n t的传感设备的状态概率分布,可以解决有缺陷知觉的其他问题。发现动作则被称为局部可见的M a r k o v决策问题。 感知/计划/动作 在这里暂不讨论基于概率的方法,而是提出一个叫感知/计划/动作的结构(改善agent的结构) 该结构的基本原理是即使动作偶尔产生了没有预料的结果,或者a g e n t有时不能决定它处于哪一种环境状态下,但是通过保证a g e n t从它的执行环境中得到连续的反馈(如机器人碰壁),来决定其动作(反应型agent)。 感知/计划/动作 确保连续反馈的一个方法是计划一个动作序列,执行这个序列中的第一个动作后,感知结果环境状态,重新计算开始节点(下一个动作的开始节点),然后重复上述过程。这种方式,选择动作的a g e n t被叫做感知/计划/动作a g e n t。 为了使这个方法有效,计算下一个计划动作的时间必须比每个动作执行时间要少。 10.2 逼近搜索 放宽产生最优计划的要求常会减少一个计划的计算代价。 可以从两个方面来减少代价。一是能找到到达目标的一条完整路径但不必要求它是最优的;或者是能找到一条局部的路径,它不要求已达到目标节点(逼近目标即可)。 一个A*类型的搜索可用于这两种方法。对前者,我们用一个不可接纳的启发式函数;对后者,在到达目标前(用可接纳的或不可接纳的启发式函数)退出搜索。 在到达目标前退出搜索是任意时间算法的一个例子。任意时间算法能在任何时刻停止。 10.2.1 孤岛驱动搜索 在孤岛驱动(i s l a n d - d r i v e n)搜索(就是一种逼近搜索)中,来自问题领域的启发性知识被用于在搜索空间中建立一个“岛节点”序列,假定有好的路径通过这个搜索空间。 10.2.2 层次搜索 假定有一些“宏算子”,它们能在一个隐式的岛搜索空间中采取大步骤。一个起始岛(在开始节点附近)和这些宏算子构成了岛的一个隐式的“元级”超大图。 首先用一个元(m e t a l e v e l)搜索来搜索这个超大图,直到找到一条宏算子路径,它可以让我们从基级开始节点附近的一个节点到达基级目标节点附近的一个节点。如果已经按照一个基级算子序列定义过宏算子,宏算子可扩展为一条基级算子路径, 然后根据基级搜索,用这条路径把开始和目标节点相连接。 如果没有以基级算子定义的宏算子,我们必须顺着元级搜索中的岛节点路径进行基级搜索。 例子 程序演示 10.2.5 建立反应过程 在一个反应型机器中,设计者已为每一个可能的状态提前计算了合适的到达目标的动作。 一方面存储这些和环境状态相对应的动作可能需要大量的内存。 另一方面,反应型a g e n t(能灵活处理一些可能产生的状态)常常比计划型a g e n t反应更快。在某些情况下,提前计算(汇编)一些频繁使用的离线(o f f l i n e)计划,把它们存储为反应例程以便可以在线(o n l i n e)快速产生适当的动作,这样做是有益的(将agent训练学习,碰到这种情况有记忆马上会作出反应)。 10.3 学习启发式函数 10.3.1 显式图 10.3.2 隐式图 10.4 奖赏代替目标 * * 10.1 感知/计划/动作循环 生成树或局部生成树很容易转换成完全反应型的T-R程序,碰到相似情况可直接调用这些例程
您可能关注的文档
最近下载
- 系统性能测试方案.docx VIP
- 省泉州市泉港区粮食购销有限公司招聘笔试真题2023.docx VIP
- 论“知假买假”法律适用.doc VIP
- 项目建议书、可行性研究报告编制及评估费用——工程咨询收费标准速查表.xls VIP
- 2025年国考行测真题及解析.docx VIP
- 2019输变电工程前期工作指引和选址选线技术手册.docx VIP
- 2025年福建省泉州市泉港区粮食购销有限公司招聘4人笔试备考题库及答案解析.docx VIP
- 2025年福建省泉州市泉港区粮食购销有限公司招聘4人笔试模拟试题及答案解析.docx VIP
- 2025福建省泉州市泉港区粮食购销有限公司招聘工作人员4人笔试备考试题及答案解析.docx VIP
- 五年级部编版语文语文园地三-课件.ppt VIP
文档评论(0)