- 1、本文档共71页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * 连通分支的并集:乘法变加法 * * MAX-VALUE(state)=maxaction aMIN-VALUE(RESULT(a,state)) * 深度优先搜索,所以单一路径。 * 加权线性的局限性 * 图中投骰子的结果是5-6 * 正线性变换 极小极大值?期望极小极大值 有机率节点的游戏中的局面评价 必须更详细地考虑评价值的意义 [1,2,3,4] [1,20,30,400] 在保持顺序不变的情况下,叶节点赋值的变换导致了最佳招数的改变。 期望极小极大值的复杂度 算法的时间复杂度为O(bmnm),其中 bm为极小极大值算法的时间复杂度; nm为不同的掷骰子结果的时间花费。 对抗搜索 博弈中的优化决策 ?–?剪枝:允许我们忽略那些不影响最后决定的部分搜索树 不完整的实时决策 包含几率因素的游戏 博弈程序的当前发展水平 国际象棋 Deep Blue Campell, Hsu, Hoane (2002) 30个IBM RS/6000,480个定制VLSI 平均每秒搜索12.6亿个节点,峰值33亿个 每步生成300亿个棋局,搜索深度14步,最高40步 4000个棋局开局,70万个大师级比赛棋谱数据库 核心算法:使用调换表的标准迭代深入?–?剪枝 国际象棋 Hydra: 64 processor, FPGA定制处理器 探索深度18步 Null move heuristic and forward pruning. Rybka: 8 core 3.2GHz Xeon Evaluation function, 4位国际象棋大师 围棋(Go) gain the most territory placing and capturing black and white 19?×?19 The average 150-move game contains ?10170 more possible board configurations: More than there are atoms in the Universe 围棋(Go) AlphaGo: Deep Neural Networks guided Monte-Carlo Tree Search Supervised Learning Learn from 30 million moves of human experts Reinforcement Learning Policy Network then Value Network by self-play * * * * * * * * * * * * * * * * * * * * * * * 一般算法 选择一个子集S,使得约束图在删除S之后成为一颗树。 S称为环割集。 如果环割集的大小为c,那么总的运行时间为O(dc(n-c)d2)。 寻找最小环割集是个NP难题。 基于合并节点 把约束图分解为相关联的子问题集 独立求解每个子问题 合并结果 澳大利亚约束图的分解 从各个子问题的解得到全局的解 把每个子问题视为一个大变量,它的值域是问题所有可能的解的集合。 例如上页图中最左边的子问题的值域大小为6。 构造全局解 在上页图中,在最左边的子问题的解确定后,其余子问题的解必须和它相容。整个问题的解集合元素个数为6x3=18,其中3是指T的可能取值。 总结 约束满足问题(CSP);用图表示它的结构 CSP问题的回溯搜索;深度优先搜索的一种形式 从三个方面优化搜索 约束满足问题的局部搜索 最小冲突启发式 问题的结构 割集调整将问题化为树状结构 树分解将问题化为子问题的树 6. 博弈搜索 博弈中的优化决策 ?–?剪枝 不完整的实时决策 包含几率因素的游戏 博弈程序的当前发展水平 人工智能中的博弈(Game) 通常指: 有完整信息的 确定性的 轮流行动的 两个游戏者 零和游戏 更高级的指: 多人游戏 非零和游戏 随机游戏 例子:棋类 对抗搜索 博弈中的优化决策 ?–?剪枝:允许我们忽略那些不影响最后决定的部分搜索树 不完整的实时决策 包含几率因素的游戏 博弈程序的当前发展水平 例子:井子棋游戏 Tic-tac-toe 9! = 362880 双方的初始状态和合法招数定义了游戏的博弈树 对抗搜索 MAX和MIN 问题的表述:两名游戏者MAX和MIN,MAX先行,然后两人轮流出招,直到游戏结束。在游戏的最后,给优胜者加分,给失败者罚分。 初始状态:棋盘局面和哪个游戏者出招 后继函数:返回招数,状态对的一个列表,其中每对表示一个合法招数和相应的结果状态 终止测试:判断游戏是否结束 效用函数:或称目标函数,对终止状态给出一个数值如输赢
文档评论(0)