网站大量收购独家精品文档,联系QQ:2885784924

多智能体系统中强化学习模型的改进及应用.pdfVIP

多智能体系统中强化学习模型的改进及应用.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多智能体系统中强化学习模型的改进及应用.pdf

维普资讯 第 11卷第2期 西安文理学院学报:自然科学版 V01.11 No.2 2008年 4月 JournalofXi’anUniversityofArtsScience(NatSciEd) Apr.2008 文章编号:1008—5564(2008)02—0093—04 多智能体系统中强化学习模型的改进及应用 梁宏倩 (西安文理学院计算机科学系,陕西 西安 710065) 摘 要:多Agent系统中的强化学习是近年发展起来的一种新的人工智能方法,是 以单 Agent强化 学习 Q—learning算法为基础的一种学习模型.由于现有的强化学习模型还存在着结构信度分配困难、 学习速度慢等缺陷,这些缺陷大大限制了多Agent强化学习模型的应用范围.本文对多Agent强化学习 模型进行了系统的研究,分析了多Agent理论中强化学习面临的任务,指出在多Agent系统顺序型任务 中遇到的时间信度分配难题及多Agent系统Agent间 “状态一动作”对 Q值估计的互通问题,对此问题 提出了初步的解决办法,并在此基础建立了一个改进的多Agent强化学习模型,而且把该模型应用于电 磁辐射源识别工作中. 关键词:分布式人工智能 ;多Agent系统;强化学习 中图分类号:TP182 文献标识码:A 1 多Agent系统 Agent技术是近年来得到飞速发展和广泛应用的一项分布式人工智能技术,在许多领域有着广泛 的应用 .Ag ent的研究起源于20世纪 70年代的人工智能,是分布式人工智能(DAI,DistributedArtificial Intelligence)的一个重要研究领域.DAI系统一般分为分布式问题求解(DPS,DistributedProblemSolv— ing)和多Agent系统(MAS,Multi—AgentSystem).多Agent系统是 由异构、分布、动态、大规模、自治A— gent构成的系统,即多Agent系统是 由多个Ag ent组成的系统.通常认为Agent是一个具有 自主性、社 会能力和反应特征的计算机软 /硬件系统,与单个Agent系统相比,多Agent系统有如下特点: · 由多个Agent构成,且系统分别建立每个Agent目标和行为模型; · 每个Agent只具有不完全的信息和问题求解能力,数据是分布的,控制也是分布的,计算过程是 异步、并发和并行的; · 其他Ag ent行为将导致环境不确定的变化 .因此多Ag ent系统本质是一个动态系统; ·Agent通过交互求解问题; 多Agent系统的体系结构主要是指系统中的各 Agent之间的信息关系和控制关系,即各个Agent 以什么样的形式组织起来,以及每个 Agent具有什么样的结构来共同完成系统任务的求解,通过定义 Agent之间的权戚关系,为Agent提供一种交互框架.合理的结构形式可以提高系统的实时性和信息处 理效率.多主体系统的体系结构的研究 目标在于设计一个合理的硬件或软件系统结构以保证要求的A_ gent性能的实现 .其层次结构如图1所示 . 目前,多Ag ent技术 中Agent的学习方法 以强化学习(reinforcementlearning)为主.强化学习过程 收稿 日期:2007—11—16 作者简介:梁宏倩 (1981一),女,陕西西安人,西安文理学院计算机科学系助教;西安电子科技大学研究生院硕士研 究生.研究方向:多媒体技术. 维普资讯 西安文理学院学报 :自然科学版 第 11卷 中,自治Agent通过不断与环境的接触获取控制 经验并改善控制行为.强化学习系统并不直接从 学习中得到如何去产生正确的动作,而是由环境 提供一种强化信号(奖励或惩罚信号)对产生动作 的好坏做出一种评价 (通

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档