一种基于影响图学习其它Agent模型的方法.pdfVIP

下载本文档

2
0
约6.73千字
约 4页
2017-08-13 发布于安徽
举报
版权申诉

一种基于影响图学习其它Agent模型的方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2005年“数字安徽”博士科技论坛论文集一种基于影响图学习其它Agent模型的方法幸张润梅 (安徽建筑工业学院计算机与信息工程系，合肥，230022) 模型表示工具，给定Agent的一个初始模型和它的历史行为，在能力、优先和信念学习的基础上来构建新的模型．学习的方法是用其它Agent的历史行为作为训练集，利用神经网络学习技术来修改效用函数．关键词t影响图，多智能体系统，能力学习，优先学习 1引言 (Multi．Agent 和信念来获得【2】。行为，通过对初始模型中的影响图参数的求精来构建新的模型。用基于历史行为的预测的好坏来确定这个模型正确的概率。 2 影响图影响图(influence 行表示的有向无环图。图有三种类型的节点：随机节点、决策节点和效用节点。决策节点表示决策者可进行 Probabilistie 的选择；随机节点表示和决策相关的随机变量，它和一个条件概率表相联系(ConditionalTables， CPTs)，也就是通常所说的贝叶斯网络；效用节点表示最大化的效用，它和一个效用函数相联系。影响图的边根据其所要表示的目的，具有不同的含义。指向效用节点和随机节点的边表示概率和函数的独立性，这和贝叶斯网络中的边是一样的。但它们并不必具有因果含义或时间上的先后关系。指向决策节点的边表示时间上的先后关系，它们显示出在决策者做出决策之前哪些变量必须是已知的。一个影响图可以被看成是一个贝叶斯网络，其中每个决策节点的值不是由它的前驱节点以概率的形式决定，而是由外部赋予，这个值满足一些最优目标。在一个影响图中的每个决策变量的值域按照以前的决策进行改变和调整，但在贝叶斯网络中决策变量的值域是固定的。因此，影响图是对贝叶斯网络所进行一种扩展，是在贝叶斯网络的基础上添加了决策节点和效用节点【5】。 ‘基金项目t安徽省教育厅青年基金(编号2005jqll44)、安徽建筑工业学院硕士基金资助。作者简介-张润梅(1971--)，女．山西介休．硕士，副教授．研究方向：机器学习及面向对象技术。 244 2005年“数字安徽”博士科技论坛论文集 3模型学习更加有效地满足目标。在大多数情况下，关于其它Agents的信息仅来自对它们的行为的观察。这里将在一个特定的时间范围内所观察到的行为的集合定义为Agent的一个历史行为，其中的关于环境状态的数据是已知的。给定一个历史行为，通过对影响图中的参数求精来得到一个更好的模型。作为一种模型表示工具，影响图能够表达Agent进行行为预测所必须的能力、优先和信念。从学习的角度看，影响图除继承了贝叶斯网络学习的主要特征外，还有与决策和效用节点有关的特征。贝叶斯网络的学习仅限于对信念的学习，影响图扩展到能力学习(为决策节点找到一个正确的值)和优先学习(即找到正确的效用函数)。 3．1能力学习策节点值，并修改受决策节点影响的节点的条件概率表来对模型进行改进。 3．2优先学习里采用的策略是通过对效用函数求精来改进模型，以保证历史行为中的每个行为总使结果状态的效用最大。设U(S)表示状态S的效用，它由一个效用函数给出。效用函数的一般结构是： 9009X|Ⅳ) (1) U(S)=f(Xl 集。为简单起见，我们假设加权因子线性依赖于特征。根据多属性效用理论【6，7】，一个Agent的效用函数又可表示如下： u(s)=W1xl+…+WNX^， (2) 下面介绍通过修改权重(I)k来学习Agent优先的方法。设A表示使期望效用最大的一个行为： A’；arg唑杰P(s，I口l，层)×t／(S，) (3) ·· j-n 的背景证据E表示历史行为所提供