广义强化学习条件下的猎鹿博弈的均衡选择.docxVIP

  • 25
  • 0
  • 约4.02千字
  • 约 8页
  • 2018-03-03 发布于浙江
  • 举报

广义强化学习条件下的猎鹿博弈的均衡选择.docx

广义强化学习条件下的猎鹿博弈的均衡选择

广义强化学习条件下的猎鹿博弈的均衡选择摘要:我们应用广义的强化(GR)学习方案到猎鹿博弈中,GR学习包括正的和负的强化,GR学习规则产生GR动力,控制着总体代理人混合策略的发展,我们识别出了GR动力全局地聚焦于博弈中两个纯策略纳什均衡中的一个的条件。1、前言这篇文章研究猎鹿博弈中的均衡选择,在Lahkar and Seymour (2014)提出的广义强化方案背景下。均衡选择尤其是帕累托效率均衡下的选择,合作博弈例如猎鹿博弈已经进行了广泛地研究(Skyrms and Pemantle, 2000;Skyrms, 2003),GR学习包括正的激励和负的激励的交叉规则。如Lahkar and Seymour (2014),我们采用一个混合策略的代理人总体,在猎鹿博弈中采取行动;根据B?rgers and Sarin (1997),我们解释正的支付为一种公共外生激励水平零值的补偿,增加了当前行动通过交叉正激励的可能性,然而,不像B?rgers and Sarin (1997),所有支付是正的,我们允许支付不满足激励,为负值。负支付通过负强化减少了当前行动的可能性,正如Lahkar and Seymour (2014)中,这样的GR学习,当应用于代理人大样本时,引起GR动力,确定性的ODE 系统,描述了所有代理人混合策略的发展。我们建立了两个均衡选择结果,命题3.1描述了帕累托效率雄鹿均衡的条件特点,在我们的模型中是全局渐进稳定的。对于这样的选择,我们要求次级野兔均衡的支付为负,雄鹿均衡支付为正且足够高,事实上要高于不合作均衡(鹿、兔)的损失,结果取决于负激励的关键特性,没有纯策略状态,包括一个纳什均衡,是GR动力的稳定点。因此,野兔均衡的负支付驱散了GR动力,而雄鹿均衡的足够大的正支付使它全局集中。另一方面,命题3.2建立了条件,野兔均衡是(几乎是)全局渐进稳定的,这要求野兔均衡支付是正的,不合作(鹿,兔)的损失大于均衡支付的差,这表明野兔行动满足激励当雄鹿行动足够有风险。意愿背后的基本概念基于强化学习,包括正的和负的,在心理学文献中能找到起源(Estes, 1950; Bush and Mosteller, 1951, 1955).基于行为模型扩展这种意愿到经济学及博弈论首先被提出Sauermann and Selten (1962).经济学中第一个正式的强化学习模型是Cross (1973)修正了 Bush and Mosteller’s (1955)原始的强化学习规则,通过包括增加行动概率的可能性,这取决于这个行动的支付;B?rgers and Sarin (1997)在博弈理论上应用了Cross (1973)的规则。在强化学习中,支付没有被解释为冯·纽曼--摩根斯坦效用函数,正值和负值之间的区别是没有意义的,B?rgers and Sarin (1997)解释这些支付作为强化刺激,然而我们的模型包括支付的比较,因此需要一些基本解释,避开这个难题的一个方式是把支付作为一个物理量,例如食物,超过或低于抱负水平。本文采用这种解释,我们意识到这个狭窄的解释限制了获得结果的范围,相比于其它模型的均衡选择结果,采用冯·纽曼--摩根斯坦效用函数标准解释。本文第二部分介绍模型,第三部分是均衡选择的结果,第四部分以对当前文献的讨论作为结束。2、模型我们考虑一个连续代理人的总体,总体中的代理人随机匹配进行一个2×2的对称带有行动集的正则博弈,,我们用表示代理人采用行动i获得的支付,并与采用行动j的代理人进行匹配,,正如Lahkar and Seymour (2014),我们假设,我们进一步假设: (1)在公式(1)中研究的正则形式的博弈变成了猎鹿博弈,其中行动1代表“雄鹿”,行动2代表“野兔”,我们用支付行列式表示猎鹿博弈: (2)在公式(2)中,为简化记号,我们用表示。总体中的代理人用GR学习规则更新他们的策略(Lahkar and Seymour, 2014),为了描述GR学习,表示,,而且,表示为一个代理人的混合策略集,代表采取行动i的可能性,所有代理人进行匹配,在时间t开始博弈,匹配持续时间,之后他们随机重新匹配。因此,在时间时,每一位代理人几乎确定会匹配新的对手。在每一次匹配中,每一个代理人采用混合策略选择一个行动。然后代理人在这次匹配期间采取这个行动。假设在当前的匹配中一个代理人采取行动i获得支付,之后在下一轮匹配中,会有一个新对手,这个代理人修正他的行动为,定义GR学习规则为: (3)(4)其中GR学习规则包括正的和负的强化,如果,因此,那么公式(3)和(4)等价于正强化的交叉规则,转移参与可能性的比率到行动i;另一方面,如果,那么,因此,负强化从i转移比率到另一个行动。根据Lahkar and Seymour (2014),假设

文档评论(0)

1亿VIP精品文档

相关文档