多智能体第6章.pptVIP

下载本文档

3
0
约3.26千字
约 24页
2018-05-05 发布于四川
举报
版权申诉

多智能体第6章.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

6-* 第6章多Agent交互哈尔滨工业大学计算机科学与技术学院 6-* 什么是多Agent系统？ 6-* 多Agent系统多Agent系统包含一定数量的Agent… … Agent之间通过通信进行交互… …在一个环境中行动… …具有不同的“作用范围”，(可能一致)… …将按照一定的（组织）关系联系起来。 6-* 效用与偏好假设只有两个Agent：Ag = {i, j} 并且这两个Agent是自利的，并对世界是什么样子有自己的偏好。设 W = {w1, w2, …}是关于Agent偏好结局的集合。 Agent的偏好用效用函数的形式表达为： ui ： W ? R uj ： W ? R 这些效用函数导出一个关于输出偏好排序： w w’ 表示 ui(w) ? ui(w’) w w’ 表示 ui(w) ? ui(w’) 6-* 什么是效用？效用不是金钱（但是一个有用的类比）。效用与金钱的关系曲线： 6-* 多Agent相遇我们需要引入一个Agent将在其中动作的环境模型： Agent将在这个环境中同时选择执行一个动作，根据它们选择的动作，将产生一个属于W的结局。真正产生的结局取决于执行动作的组合。假设每个Agent只有两个可以执行的动作：C (“cooperate”) and D (“defect”) 环境行为由状态转换函数给出： 6-* 多Agent相遇下面是一个状态转换函数的例子：（这个环境把每个动作组合映射成不同的结局，因此这个环境对每个Agent执行的动作都是敏感的）另一种情况是：（在这个环境中，Agent做什么动作都没有关系，结局总是相同的。）还有一种情况是：（在这个环境中，结局只依赖于j执行的动作） 6-* 理性的行为假设在某种情况下两个Agent都能对环境产生影响，并且它们的效用函数如下：有点不严格地写成下面的形式： Agent i 可能的结局偏好如下： Agent i 的理性选择是合作。（ Agent i 通过“合作”产生的结局比通过“不合作”产生的结局好。） 6-* 收益矩阵采用对策论中收益矩阵的表示方法将前面的情形表示如下： Agent i 获得的收益表示在每个单元格右上角的值， Agent j 在左下角的值。 6-* 优势策略对于Agent i 的任何特定的策略（ C或D ），会有很多可能的结局。如果执行策略s1产生的每个可能的结局优于执行策略s2产生的每个可能的结局，就说s1优于s2 。如何确定优势策略？遗憾的是，在很多交互的情形下，不存在强优势策略，或存在一个以上的强优势策略。 6-* Nash平衡通常，两个策略s1和s2是处于Nash平衡，如果：在Agent i 执行s1这样的假设下， Agent j最好执行s2。在Agent j 执行s2这样的假设下， Agent i 最好执行s1 。两个Agent没有一个Agent有脱离Nash平衡的动机。令人遗憾的是：并不是每个交互的情形都有Nash平衡。有些交互的情形存在一个以上的Nash平衡。 6-* 竞争与零和交互 Agent的偏好相互处在完全对立的位置上，就出现了严格竞争的局面。零和是指两个Agent的效用之和为零（sum to zero），即： ui(w) + uj(w) = 0 对所有w ? W 零和意味着严格的竞争。在现实生活中，零和的情况出现得很少，但在许多情形下有把人类的交互作为零和交互的趋势。 6-* 囚犯两难两个人被共同起诉一项罪名，被关押在隔离的牢房里，没有办法会面或通信。这两个人被告知：如果有人承认有罪而另一人没有承认，承认有罪者将被释放，另一个人将被关押3年。如果两个人都承认有罪，每个人将被关押2年。两个囚犯都知道如果都不承认有罪，每个人将被关押1年。把承认有罪称为不合作D，不认罪称为合作C。 6-* 囚犯两难囚犯两难问题的收益矩阵如右图所示：左上角单元格：如果都不合作，那么两个人得到同样的惩罚，都获得收益2。右上角单元格：如果i合作， j不合作，i获得较小的收益1，而j获得收益4 。左下角单元格：如果j合作， i不合作，j获得较小的收益1，而i 获得收益4 。右下角单元格：两个人都合作获得相同的收益3。 6-* 囚犯两难每个Agent理性地推理结局应该是不合作（认罪）。这样能保证不低于2的收益，而合作只能保证最大的收益1，为什么？所以，不合作是所有策略中最好的结局，两个 Agent都不合作，都获得收益2。但是，朴素的直觉告诉我们这不是最好的结局。当然他们应该都选择合作，都获得收益3。 6-* 囚犯两难这个显然的矛盾正是多Agent交互的