- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
6-* 第6章 多Agent交互 哈尔滨工业大学 计算机科学与技术学院 6-* 什么是多Agent系统? 6-* 多Agent系统 多Agent系统包含一定数量的Agent… … Agent之间通过通信进行交互… …在一个环境中行动… …具有不同的“作用范围”,(可能一致)… …将按照一定的(组织)关系联系起来。 6-* 效用与偏好 假设只有两个Agent:Ag = {i, j} 并且这两个Agent是自利的,并对世界是什么样子有自己的偏好。 设 W = {w1, w2, …}是关于Agent偏好结局的集合。 Agent的偏好用效用函数的形式表达为: ui : W ? R uj : W ? R 这些效用函数导出一个关于输出偏好排序: w w’ 表示 ui(w) ? ui(w’) w w’ 表示 ui(w) ? ui(w’) 6-* 什么是效用? 效用不是金钱(但是一个有用的类比)。 效用与金钱的关系曲线: 6-* 多Agent相遇 我们需要引入一个Agent将在其中动作的环境模型: Agent将在这个环境中同时选择执行一个动作,根据它们选择的动作,将产生一个属于W的结局。 真正产生的结局取决于执行动作的组合。 假设每个Agent只有两个可以执行的动作:C (“cooperate”) and D (“defect”) 环境行为由状态转换函数给出: 6-* 多Agent相遇 下面是一个状态转换函数的例子:(这个环境把每个动作组合映射成不同的结局,因此这个环境对每个Agent执行的动作都是敏感的) 另一种情况是:(在这个环境中,Agent做什么动作都没有关系,结局总是相同的。) 还有一种情况是: (在这个环境中,结局只依赖于j执行的动作) 6-* 理性的行为 假设在某种情况下两个Agent都能对环境产生影响,并且它们的效用函数如下: 有点不严格地写成下面的形式: Agent i 可能的结局偏好如下: Agent i 的理性选择是合作。( Agent i 通过“合作”产生的结局比通过“不合作”产生的结局好。) 6-* 收益矩阵 采用对策论中收益矩阵的表示方法将前面的情形表示如下: Agent i 获得的收益表示在每个单元格右上角的值, Agent j 在左下角的值。 6-* 优势策略 对于Agent i 的任何特定的策略( C或D ),会有很多可能的结局。 如果执行策略s1产生的每个可能的结局优于执行策略s2产生的每个可能的结局,就说s1优于s2 。 如何确定优势策略? 遗憾的是,在很多交互的情形下,不存在强优势策略,或存在一个以上的强优势策略。 6-* Nash平衡 通常,两个策略s1和s2是处于Nash平衡,如果: 在Agent i 执行s1这样的假设下, Agent j最好执行s2。 在Agent j 执行s2这样的假设下, Agent i 最好执行s1 。 两个Agent没有一个Agent有脱离Nash平衡的动机。 令人遗憾的是: 并不是每个交互的情形都有Nash平衡。 有些交互的情形存在一个以上的Nash平衡。 6-* 竞争与零和交互 Agent的偏好相互处在完全对立的位置上,就出现了严格竞争的局面。 零和是指两个Agent的效用之和为零(sum to zero),即: ui(w) + uj(w) = 0 对所有w ? W 零和意味着严格的竞争。 在现实生活中,零和的情况出现得很少,但在许多情形下有把人类的交互作为零和交互的趋势。 6-* 囚犯两难 两个人被共同起诉一项罪名,被关押在隔离的牢房里,没有办法会面或通信。这两个人被告知: 如果有人承认有罪而另一人没有承认,承认有罪者将被释放,另一个人将被关押3年。 如果两个人都承认有罪,每个人将被关押2年。 两个囚犯都知道如果都不承认有罪,每个人将被关押1年。 把承认有罪称为不合作D,不认罪称为合作C。 6-* 囚犯两难 囚犯两难问题的收益 矩阵如右图所示: 左上角单元格: 如果都不合作,那么两个人得到同样的惩罚,都获得收益2。 右上角单元格:如果i合作, j不合作,i获得较小的收益1,而j获得收益4 。 左下角单元格:如果j合作, i不合作,j获得较小的收益1,而i 获得收益4 。 右下角单元格:两个人都合作获得相同的收益3。 6-* 囚犯两难 每个Agent理性地推理结局应该是不合作(认罪)。这样能保证不低于2的收益,而合作只能保证最大的收益1,为什么? 所以,不合作是所有策略中最好的结局,两个 Agent都不合作,都获得收益2。 但是,朴素的直觉告诉我们这不是最好的结局。当然他们应该都选择合作,都获得收益3。 6-* 囚犯两难 这个显然的矛盾正是多Agent交互的
您可能关注的文档
最近下载
- 《七律二首 送瘟神》-中职语文高二同步课件精选(高教版2023·职业模块).pptx VIP
- 高考蓝皮书·物理试题分析2025.docx VIP
- 综合实践活动 开学第一课 2024-2025学年综合实践活动开学第一课课件.pptx VIP
- 高标准农田监理大纲方案投标文件(技术方案).doc
- 小儿过敏性休克抢救流程.pptx VIP
- 液压与气压传动技术完整整套教学课件.pdf VIP
- 技术标投标文件监理大纲.doc VIP
- 2025 年成都市三年级数学秋季开学摸底考 - 冲刺卷及答案(北师大版).docx VIP
- 最新2025年《初中初三开学第一课》全文.pptx VIP
- 姓氏的由来演讲课件(张姓).pptx VIP
文档评论(0)