PredictingHumanInteractiveLearningbyRegret_driven.ppt

下载文档 降价啦

3
0
约4.1千字
约 27页
2016-05-24 发布于河南
举报
版权申诉
保障服务

PredictingHumanInteractiveLearningbyRegret_driven.ppt

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Predicting Human Interactive Learning by Regret_driven Neural Networks 论文报告 ——蔡延亮 2008-10-14 一、论文中研究的问题二、方法及创新点三、实验验证四、总结展望一、论文中研究的问题本文研究的重点是如何用基于后悔驱动的神经网络模型来对人类交互式学习中的行为进行预测。实际上作者的主题是关于博弈论的研究，而不是单单神经网络的一个应用。博弈论博弈论博弈分类博弈分类按照参与人对其他参与人的了解程度分为完全信息博弈和不完全信息博弈。完全博弈是指在博弈过程中，每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息。如果参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的准确信息，在这种情况下进行的博弈就是不完全信息博弈。博弈分类非零和博弈是一种非合作下的博弈，博弈中各方的收益或损失的总和不是零值，它区别于零和博弈。在经济学研究中很有用。在这种状况时，自己的所得并不与他人的所失的大小相等，连自己的幸福也未必建立在他人的痛苦之上，即使伤害他人也可能“损人不利己”，所以博弈双方存在“双赢”的可能，进而合作。零和博弈与非零和博弈相对，是博弈论的一个概念，属非合作博弈，指参与博弈的各方，在严格竞争下，一方的收益必然意味着另一方的损失，博弈各方的收益和损失相加总和永远为“零”。双方不存在合作的可能。也可以说：自己的幸福是建立在他人的痛苦之上的，二者的大小完全相等，因而双方都想尽一切办法以实现“损人利己”。博弈分类目前经济学家们现在所谈的博弈论一般是指非合作博弈，由于合作博弈论比非合作博弈论复杂，在理论上的成熟度远远不如非合作博弈论。非合作博弈又分为：完全信息静态博弈，完全信息动态博弈，不完全信息静态博弈，不完全信息动态博弈。与上述四种博弈相对应的均衡概念为：纳什均衡(Nash equilibrium)，子博弈精炼纳什均衡（subgame perfect Nash equilibrium），贝叶斯纳什均衡(Bayesian Nash equilibrium)，精炼贝叶斯纳什均衡(perfect Bayesian Nash equilibrium)。纳什均衡（Nash equilibrium）又称为非合作赛局平衡，是赛局理论的一个重要概念，以约翰·纳什命名。纳什均衡纳什称 s 为平衡点(Equilibrium point)。----其中 pi为参与者 i 的收获(payoff)，si代表所有参与者之策略，ri代表参与者 i 的一种可能策略，(s;ri) 指参与者 i 单方面改变策略成 ri 某情况下无一参与者可以独自行动而增加收益经典例子经典的例子就是囚徒困境，囚徒困境是一个非零和博弈。大意是：一个案子的两个嫌疑犯被分开审讯，警官分别告诉两个囚犯，如果你招供，而对方不招供，则你将被判刑一年，而对方将被判刑十年；如果两人均招供，将均被判刑五年。如果两人均不招供，将最有利，只被判刑三年。于是，两人同时陷入招供还是不招供的两难处境。但两人无法沟通，于是从各自的利益角度出发，都依据各自的理性而选择了招供，这种情况就称为纳氏均衡点。这时，个体的理性利益选择是与整体的理性利益选择不一致的。囚徒困境囚徒困境基于经济学中Rational Rational agent的前提假设，两个囚犯符合自己利益的选择是坦白招供，原本对双方都有利的策略不招供从而均被判刑三年就不会出现。事实上，这样两人都选择坦白的策略以及因此被判五年的结局被称作是“”（也叫非合作均衡），换言之，在此情况下，无一参与者可以“独自行动”（即单方面改变决定）而增加收获。总结前面的介绍主要为了引出作者的研究重点在于在社会环境中人类的学习具有交互的特性，即一个人的学习行为同时受到其他人的行为的影响。博弈论就是相互影响的决策论中的经典范例。所谓后悔驱动是指你当前实际所得的收益和向后看一步（别人都作出决策后）能拿到的最大所得之间的差异（the difference between the obtained payoff and the ex-post best payoff），在人类心理学中就是后悔自己没做出最好的决定。作者正式用这种理念来作为神经网络改变权值矩阵的一种方式，来进行博弈论中的行为预测。而传统的增强学习（Reinforcement Learning）模型，更多的只是个人最大收益的一种优化，不能反映出人们行为的相互影响，该模型考虑了人们行为之间的相互影响，因而更加