- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第17届IFAC系统辨识研讨会预印本国际会议2015年10月
19‑21日,
在固定策略更则下的进化二人布
尔游戏中学习获胜?
∗∗∗∗
∗理工大学,(电子邮件:wdsky2010@126.com)
∗∗复杂系统智能控制与决策国家重点,理工大学(电子邮件:
mathmhb@)
:本文介绍了一种算法,用于通过策略和游戏结果记录来学习二人布尔游戏的策略更
则。本文中的二人游戏被引入为一个零和游戏,并附带一个布尔策略集,这些策略由固定
布尔函数管理,其参数是策略和带有加性二进制噪声的游戏结果,可以建模为随机布尔动
态系统。然而,对于这种易于进行的游戏,没有有效的便捷方法来更频繁地获胜。为了实现这
一目标,提出了一种基于布尔回归和最大似然估计的学习算法,用于通过策略和游戏结果
记录来学习策略更则和噪声特性。此外,通过实际示例进行了广泛的模拟,证明了所提出
的算法的有效性。
:学习,布尔游戏,系统识别,参数估计。
1.引言然而,如今博弈论已广泛应用于行为关系的研究,并发展
成为决策科学逻辑方面的总称,包括人类和类(例如
在本文中,引入了一种进化布尔游戏,作为两人零和游戏,
计算机、昆虫/动物)在内的各种主体。
并具有布尔策略集,两名玩家的策略是策略的演变,包
含随机项。在游戏中,我们假设两名玩家的策略都遵循固定
的逻辑策略更则,这意味着两名玩家可以任意使用逻辑
规则组合策略,并加入少量随机性,尽管这些规则是固博弈论中最基本的思想是,零和二人博弈的可能结果可以
定的,但我们事先并不知道它们。我们认为这种类型的布尔通过支付矩阵来描述,每个参与者都会选择鞍点以避免在
游戏可以建模为随机布尔动态系统(SBDS)(参见Ma等人情况下的损失。在冯·诺伊曼和摩根斯特恩(1944)
(2014))。因此,我们的主要关注点是,一名玩家是否可研究的博弈中,没有涉及进化或动态过程,主要研究的是
以通过学比赛中更频繁地获胜,如果可以,那么他如何矩阵博弈,探讨了一系列均衡的概念。后来博弈论的发展
实现这一点。仍然围绕各种均衡概念展开,其中最重要的是纳什均衡
两人零和游戏和经典命题逻辑都已经被广泛研究。因此,(或库诺‑纳什均衡),这一概念由约翰·福布斯·纳什首次
本文的价值主要在于它揭示了逻辑、代数、动态博弈论和提出,他证明了(纳什,1950)所有有限博弈不论参与者
学习是如何交织在一起的。然而,在深入讨论之前,我们数量多少都存在混合策略的纳什均衡,并因此在博弈论方
将介绍一些相关理论,并将我们的研究置于相关领域的宏面的贡献而获得了。
观图景中。
受传统博弈论的启发,进化博弈论(EGT)由约翰·梅纳
最重要的相关领域是传统的博弈论。通常简称为博弈论的这一德·和·R·普赖斯于1973年提出,当时他们试图用
理论,研究的是策略性。具体来说,它研究的是智能博弈论分析达尔文竞争(参见梅纳德‑和普赖斯
理性决策者之间与合作的数学模型(参见(1973))。与经典博弈论不同,EGT更关
原创力文档


文档评论(0)