- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多智能体系统中强化学习模型的改进及应用.pdf
维普资讯
第 11卷第2期 西安文理学院学报:自然科学版 V01.11 No.2
2008年 4月 JournalofXi’anUniversityofArtsScience(NatSciEd) Apr.2008
文章编号:1008—5564(2008)02—0093—04
多智能体系统中强化学习模型的改进及应用
梁宏倩
(西安文理学院计算机科学系,陕西 西安 710065)
摘 要:多Agent系统中的强化学习是近年发展起来的一种新的人工智能方法,是 以单 Agent强化
学习 Q—learning算法为基础的一种学习模型.由于现有的强化学习模型还存在着结构信度分配困难、
学习速度慢等缺陷,这些缺陷大大限制了多Agent强化学习模型的应用范围.本文对多Agent强化学习
模型进行了系统的研究,分析了多Agent理论中强化学习面临的任务,指出在多Agent系统顺序型任务
中遇到的时间信度分配难题及多Agent系统Agent间 “状态一动作”对 Q值估计的互通问题,对此问题
提出了初步的解决办法,并在此基础建立了一个改进的多Agent强化学习模型,而且把该模型应用于电
磁辐射源识别工作中.
关键词:分布式人工智能 ;多Agent系统;强化学习
中图分类号:TP182 文献标识码:A
1 多Agent系统
Agent技术是近年来得到飞速发展和广泛应用的一项分布式人工智能技术,在许多领域有着广泛
的应用 .Ag ent的研究起源于20世纪 70年代的人工智能,是分布式人工智能(DAI,DistributedArtificial
Intelligence)的一个重要研究领域.DAI系统一般分为分布式问题求解(DPS,DistributedProblemSolv—
ing)和多Agent系统(MAS,Multi—AgentSystem).多Agent系统是 由异构、分布、动态、大规模、自治A—
gent构成的系统,即多Agent系统是 由多个Ag ent组成的系统.通常认为Agent是一个具有 自主性、社
会能力和反应特征的计算机软 /硬件系统,与单个Agent系统相比,多Agent系统有如下特点:
· 由多个Agent构成,且系统分别建立每个Agent目标和行为模型;
· 每个Agent只具有不完全的信息和问题求解能力,数据是分布的,控制也是分布的,计算过程是
异步、并发和并行的;
· 其他Ag ent行为将导致环境不确定的变化 .因此多Ag ent系统本质是一个动态系统;
·Agent通过交互求解问题;
多Agent系统的体系结构主要是指系统中的各 Agent之间的信息关系和控制关系,即各个Agent
以什么样的形式组织起来,以及每个 Agent具有什么样的结构来共同完成系统任务的求解,通过定义
Agent之间的权戚关系,为Agent提供一种交互框架.合理的结构形式可以提高系统的实时性和信息处
理效率.多主体系统的体系结构的研究 目标在于设计一个合理的硬件或软件系统结构以保证要求的A_
gent性能的实现 .其层次结构如图1所示 .
目前,多Ag ent技术 中Agent的学习方法 以强化学习(reinforcementlearning)为主.强化学习过程
收稿 日期:2007—11—16
作者简介:梁宏倩 (1981一),女,陕西西安人,西安文理学院计算机科学系助教;西安电子科技大学研究生院硕士研
究生.研究方向:多媒体技术.
维普资讯
西安文理学院学报 :自然科学版 第 11卷
中,自治Agent通过不断与环境的接触获取控制
经验并改善控制行为.强化学习系统并不直接从
学习中得到如何去产生正确的动作,而是由环境
提供一种强化信号(奖励或惩罚信号)对产生动作
的好坏做出一种评价 (通
文档评论(0)