网站大量收购闲置独家精品文档,联系QQ:2885784924

人工智能导论-第二章对抗搜索.pptVIP

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

*早就被提出,但是直到有了电子计算机才被广泛应用(有了伪随机数)。蒙特卡洛:摩洛哥的一个著名赌场的名字*在给定时间达到之前重复该过程,随时可以得到结果。*1,了解不够的节点希望多了解,应优先考虑;2,对当前为止获利高的节点,希望优先。二者要均衡**第二章对抗搜索对抗搜索:博弈博弈问题极小极大方法?-?剪枝蒙特卡洛博弈方法**2.1博弈问题博弈问题双人一人一步双方信息完备零和*分钱币问题(7)(6,1)(5,2)(4,3)(5,1,1)(4,2,1)(3,2,2)(3,3,1)(4,1,1,1)(3,2,1,1)(2,2,2,1)(3,1,1,1,1)(2,2,1,1,1)(2,1,1,1,1,1)对方先走我方必胜中国象棋*01一盘棋平均走50步,总状态数约为10的161次方。02假设1毫微秒走一步,约需10的145次方年。03结论:不可能穷举。2.2极小极大过程*05-333-3022-30-23541-30689-30-33-3-3-21-36-30316011极大极小ab022.3?-?剪枝*极大节点的下界为?。极小节点的上界为?。剪枝的条件:后辈节点的?值≤祖先节点的?值时,?剪枝后辈节点的?值≥祖先节点的?值时,?剪枝简记为:极小≤极大,剪枝极大≥极小,剪枝?-?剪枝(续)*486-315035-33-3022-30-2309-300-303305411-31661abcdefghijkmn2.4蒙特卡洛博弈方法*为什么?-?剪枝方法在围棋上失效??-?剪枝方法存在的问题依赖于局面评估的准确性局面评估问题大量专家知识知识的统一性问题人工整理围棋落子模型*围棋对弈过程可以看做一个马尔科夫过程:五元组:{T,S,A(i),P(·|i,a),r(i,a)}T:决策时刻S:状态空间,S={i}A(i):可行动集合(可落子点)P(·|i,a):状态i下选择行动a的概率r(i,a):状态i下选择行动a后课获得的收益蒙特卡洛方法*二十世纪40年代中期S.M.乌拉姆和J.冯·诺伊曼提出的一种随机模拟方法多重积分矩阵求逆线性方程组求解积分方程求解偏微分方程求解随机性问题模拟蒲丰投针问题*1777年法国科学家蒲丰提出一种计算π的方法:取一张白纸,在上面画上许多条间距为d的等距平行线,另取一根长度为l(ld)的针,随机地向该纸上投掷针,并记录投掷次数n以及针与直线相交的次数m,据此计算π值。dx(x,α)决定了针的位置针与直线的相交条件:x≤(l/2)·sinα其中:x∈[0,d/2],α∈[0,π]lα123451黄颜色部分与长方形面积之比即为针与直线相交的概率2d/23π4α50蒙特卡洛评估*从当前局面的所有可落子点中随机选择一个点落子重复以上过程直到胜负可判断为止经多次模拟后,选择胜率最大的点落子蒙特卡洛规划*解决马尔科夫决策问题的有效方法之一基本思想与特点:将可能出现的状态转移过程用状态树表示从初始状态开始重复抽样,逐步扩展树中的节点某个状态再次被访问时,可以利用已有的结果,提高了效率在抽样过程中可以随时得到行为的评价蒙特卡洛规划的步骤*01选择从根节点出发自上而下地选择一个落子点02扩展向选定的点添加一个或多个子节点03模拟对扩展出的节点用蒙特卡洛方法进行模拟04回溯根据模拟结果依次向上更新祖先节点估计值更新过程*设ni为当前要模拟的节点,△为模拟获得的收益对ni及其祖先的模拟次数加1ni的收益加△更新ni的祖先的收益,同类节点加△,非同类节点减△(这里节点的类型按照极大极小节点划分)蒙特卡洛规划算法流程*两方面的因素:选择落子点的策略*01对尚未充分了解的节点的探索02对当前具有较大希望节点的利用多臂老虎机模型**早就被提出,但是直到有了电子计算机才被广泛应用(有了伪随机数)。蒙特卡洛:摩洛哥的一个著名赌场的名字*在给定时间达到之前重复该过程,随时可以得到结果。*1,了解不够的节点希望多了解,应优先考虑;2,对当前为止获利高的节点,希望优先。二者要均衡**

文档评论(0)

SYWL2019 + 关注
官方认证
文档贡献者

权威、专业、丰富

认证主体四川尚阅网络信息科技有限公司
IP属地四川
统一社会信用代码/组织机构代码
91510100MA6716HC2Y

1亿VIP精品文档

相关文档