8博弈理论初步试卷.ppt

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
博弈理论初步 信息完全的零和博弈 概要 博弈定义 博弈评价 博弈最佳解 最大最小 非确定性博弈 博弈类型 定义 俩人对弈:玩家A和B,A先手。 确定性:移动或状态不受制于机会,即不是随机抽取的。 信息完全:俩玩家亲历所有的状态及决定。每个决定都是顺序做出的。 零和:A获得的等于B损失的。一个玩家必须赢,或是平局,即双方得到的是等同的。 例子 开始,一叠硬币放在俩玩家之间。 每个玩家将其中一叠硬币分成不同的两叠。 当每叠只有一或两枚硬币时,对弈结束。 第一位不能继续的玩家输。 例子 搜索问题 状态:棋盘构形+下家 后续态:通过合法移动,当前态能到达的一系列状态 终态:博弈结束的状态 回报或效用:赋给每个终态的数值 例如:U(s)=+1:A赢,?1:B赢,0:平局 博弈值:假设俩玩家都采用最佳策略,这样到达的一个终态的值,称为最大最小(minimax)值。 搜索:寻找从当前态开始,并使博弈值极大的移动 博弈树 最佳(或最大最小)策略 搜索博弈树,使得: A手:寻找从相应的亚树开始的,能产生最大回报的移动。该移动对A最有利 B手:寻找从相应的亚树开始的,能产生最小回报的移动。该移动对B最有利 最大最小(Minimax) 计算从当前态起始的最大最小策略: Minimax(s) if s是终态 返回U(s) else if 下一步是A手 返回 else 返回 例子 最大最小性质 完全性:如果是有限博弈 最佳性:如果对手表现最佳 在本质上,是执行一个全范围的深度优先搜索(DFS) 有效性: 用?-?剪枝去掉(大)部分搜索空间: ? = 目前为止,在沿着寻找最大值的路径上,某结点处所找到的最佳选择值 ? = 目前为止,在沿着寻找最小值的路径上,某结点处所找到的最佳选择值 用启发式评价函数把非终态转变成终态,以便及早停止搜索 例子:棋子数的加权总和(状态的物质价值) 采用基于最大深度的取舍测试来停止搜索。 效用值的选择 在上面两种场合下,绝对博弈值是不同的 最大最小解是相同的 不是与绝对值,而是与值的相对次序,即序数效用值有关。 仅对确定性博弈成立 评价函数可以是能保持效用值次序的任何函数 非确定性(随机)博弈 双陆棋:用掷骰子来确定合法的走步 非确定性博弈 非确定性博弈 在概率结点处,采用其后续结点的期望值: 也即,存在玩家不作选择的状态。此时可用如掷骰子来作一个随机决策 非确定性最大最小 计算从当前态起始的期望最大最小策略: Minimax(s) if s是终态:返回U(s) else if 下一步是A :返回 else if 下一步是B :返回 else:返回 效用值的选择 虽然值的次序是一样的,但不同的效用值能产生截然不同的结果。因此,与绝对效用值确实有关。 效用应与实际回报成正比。因此,仅遵循一样的次序是不够的。 想一想,在两张有相同的赔率,但有截然不同的回报分布的彩票之间作选择。 含义:评价函数必须是效用的线性正函数。 总结 定义 博弈评价 最佳解 最大最小 非确定性博弈 * 桥牌、扑克、拼字、战争游戏 军棋 信息不完全 双陆棋、大富翁 围棋、16子象棋、24子象棋 信息完全 机会 确定性 注:上面分类是依据于对博弈的通常理解。然而,将此分类一般化的理论被广泛用于决策问题。 B输 A输 B输 A手 B手 A手 B手 A手 B手 U=+1 U=+1 U=?1 A B A 概率 B B A 概率 * * *

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档