AODE中基于强化学习的Agent协商模型.pdf

下载文档

14
0
约1.91万字
约 9页
2015-09-06 发布于湖北
举报
版权申诉
保障服务

AODE中基于强化学习的Agent协商模型.pdf

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

南京大学学报(自然科学) 第37卷第2期 V0137．No．2 UNIVERSITY 2001年3月 JOURNAI。OFNANJING Mar．200l (NATURALSCIENCES) AODE中基于强化学习的Agent协商模型’ 王立春，高阳，陈世福 (南京太学计算机软件新技术国家重点实验室南京大学计算机科学与技术系，南京，210093) 摘要： AODE是我们研制的一个面向Agent的智能系统开发环境AODE中基于强化学习的Agent协商模型采用Markov决策过程和连续决策过程分别描述系统状态变化和特定系统状态的Agent协商过程，并将强化学习技术应用于Ag印t协商过程该协商模型能够描述动态环境下的多Agent协商．模型中所有Ag印t都采用元对策Q．学习算法时，系统能获得动态协商环境下的最优协商解关键词：多Ag啪t系统，协商，强化学习中图分类号：TPl8 协商问题是对策论、经济学和管理科学的重要研究课题，同时也是多Agent系统技术的关键问题．由于多Agent系统中每个Agent都具有自主性，在求解过程中按照自已的目的、知识和能力进行活动常会出现矛盾和冲突，因此Agent间的协调和自动协商是MAS(multi— agentsystem)研究的重要问题…：并且随着Internet的广泛应用以及电子商务等应用领域的飞速发展，人们越来越重视Agent间自动协商问题”J．广义上多Agent协调方法分为显式协调和隐式协调两类L3J．显式协调指Agent对可能的交互进行推理，必要时与其它Agent进行协商；隐式协调是指Agent被设计成遵循一定的行为规则，以一种隐含的行为方式避免冲突．目前大多数关于协调的研究集中在为特定问题提供一种协调和协商的解决方案HJ．如何构造适用的多Agent协商模型．使Agent在交互过程中提高协商能力是MAS研究中的待解决问题之一．理论分析以及对人类在社会交往中行为的观察表明：如果参与交往的一方能够根据对方的信念进行推理并在交往中进一步学习对方的行为方式，则将增加其在交往中的收益．因此，协商过程中的学习得到了越来越多研究者的重视．对策论领域的研究人员研究了学习在协商过中的作用¨“J，但这些理论研究成果只是 and 针对简单对策环境且只在严格的假设条件下成立Sen Sekaran[71采用一个基于规则的 and暨一8。采用一种扩展的基因编程——强标分类学习系统调整Agent的协商行为．Haynes 记基因编程(STGP)，将多Agent的策略编码成符号表达式和一个估计准则，通过适应度函数逐步增加协调策略的效率．采用遗传算法的一个缺点是由于Agent自身行为知识以及策。覆鑫晋晶：嘉磊自-然07科-学30基金(6990500”；高等学校博士点基金扣7028428’ 万方数据南京大学学报(自然科学) 第37卷略过于复杂，使得在实际应用中无法进行更有效的遗传编码；另外研究者发现由于Agent间缺乏明显和足够的通信，此多Agent策略不能成功地应用于竞争进化领域．和连续决策过程分别描述系统状态变化时和特定系统状态下的Agent协商过程，该协商模型支持动态环境下多Agent学习．为了提高Agent的协商能力和对动态环境的适应，我们在 Agent的协商过程中采用了强化学习技术．AODE协商过程的学习分为两部分，一部分是系统状态变迁过程中对协商策略的学习，另一部分是特定系统状态下对协商策略的学习 1 Markov决策过程和连续决策过程