广义强化学习条件下的猎鹿博弈的均衡选择.docxVIP

下载本文档

25
0
约4.02千字
约 8页
2018-03-03 发布于浙江
举报

广义强化学习条件下的猎鹿博弈的均衡选择.docx

广义强化学习条件下的猎鹿博弈的均衡选择

广义强化学习条件下的猎鹿博弈的均衡选择摘要：我们应用广义的强化（GR）学习方案到猎鹿博弈中，GR学习包括正的和负的强化，GR学习规则产生GR动力，控制着总体代理人混合策略的发展，我们识别出了GR动力全局地聚焦于博弈中两个纯策略纳什均衡中的一个的条件。1、前言这篇文章研究猎鹿博弈中的均衡选择，在Lahkar and Seymour (2014)提出的广义强化方案背景下。均衡选择尤其是帕累托效率均衡下的选择，合作博弈例如猎鹿博弈已经进行了广泛地研究(Skyrms and Pemantle, 2000;Skyrms, 2003)，GR学习包括正的激励和负的激励的交叉规则。如Lahkar and Seymour (2014),我们采用一个混合策略的代理人总体，在猎鹿博弈中采取行动；根据B?rgers and Sarin (1997),我们解释正的支付为一种公共外生激励水平零值的补偿，增加了当前行动通过交叉正激励的可能性，然而，不像B?rgers and Sarin (1997),所有支付是正的，我们允许支付不满足激励，为负值。负支付通过负强化减少了当前行动的可能性，正如Lahkar and Seymour (2014)中，这样的GR学习，当应用于代理人大样本时，引起GR动力，确定性的ODE 系统，描述了所有代理人混合策略的发展。我们建立了两个均衡选择结果，命题3.1描述了帕累托效率雄鹿均衡的条件特点，在我们的模型中是全局渐进稳定的。对于这样的选择，我们要求次级野兔均衡的支付为负，雄鹿均衡支付为正且足够高，事实上要高于不合作均衡（鹿、兔）的损失，结果取决于负激励的关键特性，没有纯策略状态，包括一个纳什均衡，是GR动力的稳定点。因此，野兔均衡的负支付驱散了GR动力，而雄鹿均衡的足够大的正支付使它全局集中。另一方面，命题3.2建立了条件，野兔均衡是（几乎是）全局渐进稳定的，这要求野兔均衡支付是正的，不合作（鹿，兔）的损失大于均衡支付的差，这表明野兔行动满足激励当雄鹿行动足够有风险。意愿背后的基本概念基于强化学习，包括正的和负的，在心理学文献中能找到起源(Estes, 1950; Bush and Mosteller, 1951, 1955).基于行为模型扩展这种意愿到经济学及博弈论首先被提出Sauermann and Selten (1962).经济学中第一个正式的强化学习模型是Cross (1973)修正了 Bush and Mosteller’s (1955)原始的强化学习规则，通过包括增加行动概率的可能性，这取决于这个行动的支付；B?rgers and Sarin (1997)在博弈理论上应用了Cross (1973)的规则。在强化学习中，支付没有被解释为冯·纽曼--摩根斯坦效用函数，正值和负值之间的区别是没有意义的，B?rgers and Sarin (1997)解释这些支付作为强化刺激，然而我们的模型包括支付的比较，因此需要一些基本解释，避开这个难题的一个方式是把支付作为一个物理量，例如食物，超过或低于抱负水平。本文采用这种解释，我们意识到这个狭窄的解释限制了获得结果的范围，相比于其它模型的均衡选择结果，采用冯·纽曼--摩根斯坦效用函数标准解释。本文第二部分介绍模型，第三部分是均衡选择的结果，第四部分以对当前文献的讨论作为结束。2、模型我们考虑一个连续代理人的总体，总体中的代理人随机匹配进行一个2×2的对称带有行动集的正则博弈，，我们用表示代理人采用行动i获得的支付，并与采用行动j的代理人进行匹配，，正如Lahkar and Seymour (2014),我们假设，我们进一步假设：（1）在公式（1）中研究的正则形式的博弈变成了猎鹿博弈，其中行动1代表“雄鹿”，行动2代表“野兔”，我们用支付行列式表示猎鹿博弈：（2）在公式（2）中，为简化记号，我们用表示。总体中的代理人用GR学习规则更新他们的策略(Lahkar and Seymour, 2014)，为了描述GR学习，表示，，而且，表示为一个代理人的混合策略集，代表采取行动i的可能性，所有代理人进行匹配，在时间t开始博弈，匹配持续时间，之后他们随机重新匹配。因此，在时间时，每一位代理人几乎确定会匹配新的对手。在每一次匹配中，每一个代理人采用混合策略选择一个行动。然后代理人在这次匹配期间采取这个行动。假设在当前的匹配中一个代理人采取行动i获得支付，之后在下一轮匹配中，会有一个新对手，这个代理人修正他的行动为，定义GR学习规则为：（3）（4）其中GR学习规则包括正的和负的强化，如果，因此，那么公式（3）和（4）等价于正强化的交叉规则，转移参与可能性的比率到行动i；另一方面，如果，那么，因此，负强化从i转移比率到另一个行动。根据Lahkar and Seymour (2014),假设

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

广义强化学习条件下的猎鹿博弈的均衡选择.docxVIP