一种基于影响图学习其它Agent模型的方法.pdfVIP

一种基于影响图学习其它Agent模型的方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2005年“数字安徽”博士科技论坛论文集 一种基于影响图学习其它Agent模型的方法幸 张润梅 (安徽建筑工业学院计算机与信息工程系,合肥,230022) 模型表示工具,给定Agent的一个初始模型和它的历史行为,在能力、优先和信念学习的基础上来构建新的模型.学 习的方法是用其它Agent的历史行为作为训练集,利用神经网络学习技术来修改效用函数. 关键词t影响图,多智能体系统,能力学习,优先学习 1引言 (Multi.Agent 和信念来获得【2】。 行为,通过对初始模型中的影响图参数的求精来构建新的模型。用基于历史行为的预测的好坏来确定这个模 型正确的概率。 2 影响图 影响图(influence 行表示的有向无环图。图有三种类型的节点:随机节点、决策节点和效用节点。决策节点表示决策者可进行 Probabilistie 的选择;随机节点表示和决策相关的随机变量,它和一个条件概率表相联系(ConditionalTables, CPTs),也就是通常所说的贝叶斯网络;效用节点表示最大化的效用,它和一个效用函数相联系。 影响图的边根据其所要表示的目的,具有不同的含义。指向效用节点和随机节点的边表示概率和函数的 独立性,这和贝叶斯网络中的边是一样的。但它们并不必具有因果含义或时间上的先后关系。指向决策节点 的边表示时间上的先后关系,它们显示出在决策者做出决策之前哪些变量必须是已知的。 一个影响图可以被看成是一个贝叶斯网络,其中每个决策节点的值不是由它的前驱节点以概率的形式决 定,而是由外部赋予,这个值满足一些最优目标。在一个影响图中的每个决策变量的值域按照以前的决策进 行改变和调整,但在贝叶斯网络中决策变量的值域是固定的。因此,影响图是对贝叶斯网络所进行一种扩展, 是在贝叶斯网络的基础上添加了决策节点和效用节点【5】。 ‘基金项目t安徽省教育厅青年基金(编号2005jqll44)、安徽建筑工业学院硕士基金资助。 作者简介-张润梅(1971--),女.山西介休.硕士,副教授.研究方向:机器学习及面向对象技术。 244 2005年“数字安徽”博士科技论坛论文集 3模型学习 更加有效地满足目标。在大多数情况下,关于其它Agents的信息仅来自对它们的行为的观察。这里将在一个 特定的时间范围内所观察到的行为的集合定义为Agent的一个历史行为,其中的关于环境状态的数据是已知 的。给定一个历史行为,通过对影响图中的参数求精来得到一个更好的模型。 作为一种模型表示工具,影响图能够表达Agent进行行为预测所必须的能力、优先和信念。从学习的角 度看,影响图除继承了贝叶斯网络学习的主要特征外,还有与决策和效用节点有关的特征。贝叶斯网络的学 习仅限于对信念的学习,影响图扩展到能力学习(为决策节点找到一个正确的值)和优先学习(即找到正确 的效用函数)。 3.1能力学习 策节点值,并修改受决策节点影响的节点的条件概率表来对模型进行改进。 3.2优先学习 里采用的策略是通过对效用函数求精来改进模型,以保证历史行为中的每个行为总使结果状态的效用最大。 设U(S)表示状态S的效用,它由一个效用函数给出。效用函数的一般结构是: 9009X|Ⅳ) (1) U(S)=f(Xl 集。为简单起见,我们假设加权因子线性依赖于特征。根据多属性效用理论【6,7】,一个Agent的效用函数又 可表示如下: u(s)=W1xl+…+WNX^, (2) 下面介绍通过修改权重(I)k来学习Agent优先的方法。 设A表示使期望效用最大的一个行为: A’;arg唑杰P(s,I口l,层)×t/(S,) (3) ·· j-n 的背景证据E表示历史行为所提供

文档评论(0)

bhl0572 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档