- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
不完美信息博弈中对手模型的研究-IndexCopernicusJournalsMaster.PDF
第40卷 第 1期 河 南 科 技 大 学 学 报 (自然 科 学 版 ) Vol.40 No.1
2019年 2月 JournalofHenanUniversityofScienceandTechnology(NaturalScience) Feb. 2019
文章编号:1672-6871(2019)01-0054-06 DOI:10.15926/j.cnki.issn1672-6871.2019.01.010
不完美信息博弈中对手模型的研究
吴天栋,石 英
(武汉理工大学 自动化学院,湖北 武汉 430070)
摘要:针对传统的显式建模方法依赖大量数据样本的问题,提出了策略自扩展算法,通过样本数据的自扩展来
提高建模效率。同时,为了提高对手模型的准确度,结合隐式建模和隐式子策略建模的方法,提出了子策略发
现算法。以勒杜克(Leduc)扑克博弈为实验对象,对比研究了2种传统方法和本文提出的2种算法。实验结
果表明:策略自扩展算法提高了显式建模的效率和模型准确性。在利用对手弱点获取收益方面,策略自扩展
算法比显式建模方法提升了84.4%,子策略发现算法比隐式建模方法提升了128.6%。
关键词:不完美信息博弈;对手模型;策略自扩展;隐式建模
中图分类号:TP18 文献标志码:A
0 引言
在对完美信息博弈的研究取得成功之后,不完美信息博弈近年来成为人工智能领域研究的热点。
对于不完美信息机器博弈领域的研究可以归为两大类:一类是纳什均衡策略智能体(Agent)的研究,其
目标是在不完美信息博弈中不断地寻找纳什均衡策略,反复迭代得到最优策略;另一类是对手模型的研
究,其目标是通过在博弈过程中进行对手建模,并尽最大可能地利用对手策略中的弱点。近年来,许多
研究者关注于求解机器博弈中纳什均衡策略的问题,并提出了最具代表性的虚拟遗憾最小化算法[1-2]
及其相关改进算法[3-5],这些算法成功地解决了在2人非完备信息博弈中寻求纳什均衡策略的问题。
但在博弈过程中,当对手所使用的策略与纳什均衡策略有很大的偏差时,纳什均衡策略Agent不能保证
对该对手的策略最佳。在这种情况下,使用对手建模方法并利用对手策略的弱点往往能得到更大的收
益。对于对手模型的研究,目前绝大部分工作采用的是显式建模方法[6-8],该方法基于大量的历史数据
[9] [10]
计算出对手每种决策行为的概率。为了提高策略的鲁棒性 并降低对手模型误差 ,文献[11]将组
合响应方法引入到显式建模的过程中,并开发出了扑克类机器博弈的Agent。然而,所建模型和对手的
实际策略仍有偏差,建模的方法也难以根据对手实时策略做出动态调整。因此,对建模方法的优化成为
目前研究阶段十分重要的工作。
为了达到优化对手模型的目的,本文提出了2种改进方法:第一种,研究贝叶斯统计方法,并引入策
略自扩展技术改进显式建模;第二种,基于对手博弈行为在不同信息集中的关联性[12],提出了子策略发
现算法,用来提高模型准确度。
为了验证提出的2种新算法,本文选取勒杜克(Leduc)扑克博弈为实验对象。首先,在 Leduc扑克
中生成3种固定类型的对手;然后,将显式建模和隐式建模的方法与新提出的2种方法进行了一系列对
比实验;最后,给出了各个方法对3类不同对手的比较结果。
1 经典建模方法的分析
基于文献[13]提出的扑克类机器博弈领域内的具体规则和难点,本节主要分析了传统的建模方
法。
基金项目:国家自然科学基金项目;江苏省科技研究与发展计划基金项目(BE2016155)
作者简介:吴天栋(1991-),男,湖北武汉人,硕士生;石英(1975-),女,湖北武汉人,教授,博士,硕士生导师,主要研究方向为图像
处理、模式识别及车联网.
收稿日期:2017-12-26
第 1期 吴天栋,等:不完美信息博弈中对手模型的研究 ·55·
1.1 显式建模
在博弈过程中对对手进行显式建模,是一种构建剥削策略
您可能关注的文档
- GPS数据后处理中精度分析的简明数学模型.pdf
- HankerTIM4开发板应用开发手册-TIE2E中文社区.PDF
- mtDNA多态性与人类进化.ppt
- PLM相关系统集成-Oracle.PDF
- Porte的五力分析模式.ppt
- SUN-W100生物酶在油田开发中的应用-盛世石油科技有限责任公司.PDF
- SunBlade6000多结构NetworkExpress模块用户指南-OracleDocs.PDF
- T260S串口使用说明.doc
- TTQS与企业使命、价值观、核心竞争力、愿景、文化及目标关系之研究.PDF
- VerificationintheEU欧盟的核证简介-IETA.PDF
- 2025年东南亚跨境电商市场产品退货与售后服务报告.docx
- 2025年物流与供应链在物流行业物流配送中心的物流设备.docx
- 2025年图书出版市场旅行指南读者阅读偏好与市场研究报告.docx
- 汽车行业供应链韧性评估与风险管理实践案例研究报告.docx
- 体育消费金融产品创新在户外运动领域的应用与风险控制.docx
- 银发族教育需求与在线教育平台发展白皮书.docx
- 文化创意产业资金申请策略报告:2025年度重点.docx
- 保险业数字化理赔服务效率提升解决方案报告2025.docx
- 消费升级浪潮中新国货品牌打造与品牌跨界合作案例分析报告.docx
- 有机食品市场需求增长与品牌建设策略研究报告.docx
文档评论(0)