网站大量收购独家精品文档,联系QQ:2885784924

不完美信息博弈中对手模型的研究-IndexCopernicusJournalsMaster.PDF

不完美信息博弈中对手模型的研究-IndexCopernicusJournalsMaster.PDF

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
不完美信息博弈中对手模型的研究-IndexCopernicusJournalsMaster.PDF

第40卷 第 1期 河 南 科 技 大 学 学 报 (自然 科 学 版 ) Vol.40 No.1 2019年  2月 JournalofHenanUniversityofScienceandTechnology(NaturalScience) Feb. 2019 文章编号:1672-6871(2019)01-0054-06  DOI:10.15926/j.cnki.issn1672-6871.2019.01.010 不完美信息博弈中对手模型的研究 吴天栋,石 英 (武汉理工大学 自动化学院,湖北 武汉 430070) 摘要:针对传统的显式建模方法依赖大量数据样本的问题,提出了策略自扩展算法,通过样本数据的自扩展来 提高建模效率。同时,为了提高对手模型的准确度,结合隐式建模和隐式子策略建模的方法,提出了子策略发 现算法。以勒杜克(Leduc)扑克博弈为实验对象,对比研究了2种传统方法和本文提出的2种算法。实验结 果表明:策略自扩展算法提高了显式建模的效率和模型准确性。在利用对手弱点获取收益方面,策略自扩展 算法比显式建模方法提升了84.4%,子策略发现算法比隐式建模方法提升了128.6%。 关键词:不完美信息博弈;对手模型;策略自扩展;隐式建模 中图分类号:TP18 文献标志码:A 0 引言 在对完美信息博弈的研究取得成功之后,不完美信息博弈近年来成为人工智能领域研究的热点。 对于不完美信息机器博弈领域的研究可以归为两大类:一类是纳什均衡策略智能体(Agent)的研究,其 目标是在不完美信息博弈中不断地寻找纳什均衡策略,反复迭代得到最优策略;另一类是对手模型的研 究,其目标是通过在博弈过程中进行对手建模,并尽最大可能地利用对手策略中的弱点。近年来,许多 研究者关注于求解机器博弈中纳什均衡策略的问题,并提出了最具代表性的虚拟遗憾最小化算法[1-2] 及其相关改进算法[3-5],这些算法成功地解决了在2人非完备信息博弈中寻求纳什均衡策略的问题。 但在博弈过程中,当对手所使用的策略与纳什均衡策略有很大的偏差时,纳什均衡策略Agent不能保证 对该对手的策略最佳。在这种情况下,使用对手建模方法并利用对手策略的弱点往往能得到更大的收 益。对于对手模型的研究,目前绝大部分工作采用的是显式建模方法[6-8],该方法基于大量的历史数据 [9] [10] 计算出对手每种决策行为的概率。为了提高策略的鲁棒性 并降低对手模型误差 ,文献[11]将组 合响应方法引入到显式建模的过程中,并开发出了扑克类机器博弈的Agent。然而,所建模型和对手的 实际策略仍有偏差,建模的方法也难以根据对手实时策略做出动态调整。因此,对建模方法的优化成为 目前研究阶段十分重要的工作。 为了达到优化对手模型的目的,本文提出了2种改进方法:第一种,研究贝叶斯统计方法,并引入策 略自扩展技术改进显式建模;第二种,基于对手博弈行为在不同信息集中的关联性[12],提出了子策略发 现算法,用来提高模型准确度。 为了验证提出的2种新算法,本文选取勒杜克(Leduc)扑克博弈为实验对象。首先,在 Leduc扑克 中生成3种固定类型的对手;然后,将显式建模和隐式建模的方法与新提出的2种方法进行了一系列对 比实验;最后,给出了各个方法对3类不同对手的比较结果。 1 经典建模方法的分析 基于文献[13]提出的扑克类机器博弈领域内的具体规则和难点,本节主要分析了传统的建模方 法。 基金项目:国家自然科学基金项目;江苏省科技研究与发展计划基金项目(BE2016155) 作者简介:吴天栋(1991-),男,湖北武汉人,硕士生;石英(1975-),女,湖北武汉人,教授,博士,硕士生导师,主要研究方向为图像 处理、模式识别及车联网. 收稿日期:2017-12-26 第 1期 吴天栋,等:不完美信息博弈中对手模型的研究 ·55· 1.1 显式建模 在博弈过程中对对手进行显式建模,是一种构建剥削策略

文档评论(0)

zcbsj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档