多智能体系统中强化学习模型的改进及应用.pdfVIP

下载本文档

12
0
约8.01千字
约 4页
2017-08-12 发布于重庆
举报
版权申诉

多智能体系统中强化学习模型的改进及应用.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多智能体系统中强化学习模型的改进及应用.pdf

维普资讯第 11卷第2期西安文理学院学报：自然科学版 V01．11 No．2 2008年 4月 JournalofXi’anUniversityofArtsScience(NatSciEd) Apr．2008 文章编号：1008—5564(2008)02—0093—04 多智能体系统中强化学习模型的改进及应用梁宏倩 (西安文理学院计算机科学系，陕西西安 710065) 摘要：多Agent系统中的强化学习是近年发展起来的一种新的人工智能方法，是以单 Agent强化学习 Q—learning算法为基础的一种学习模型．由于现有的强化学习模型还存在着结构信度分配困难、学习速度慢等缺陷，这些缺陷大大限制了多Agent强化学习模型的应用范围．本文对多Agent强化学习模型进行了系统的研究，分析了多Agent理论中强化学习面临的任务，指出在多Agent系统顺序型任务中遇到的时间信度分配难题及多Agent系统Agent间 “状态一动作”对 Q值估计的互通问题，对此问题提出了初步的解决办法，并在此基础建立了一个改进的多Agent强化学习模型，而且把该模型应用于电磁辐射源识别工作中．关键词：分布式人工智能；多Agent系统；强化学习中图分类号：TP182 文献标识码：A 1 多Agent系统 Agent技术是近年来得到飞速发展和广泛应用的一项分布式人工智能技术，在许多领域有着广泛的应用．Ag ent的研究起源于20世纪 70年代的人工智能，是分布式人工智能(DAI，DistributedArtificial Intelligence)的一个重要研究领域．DAI系统一般分为分布式问题求解(DPS，DistributedProblemSolv— ing)和多Agent系统(MAS，Multi—AgentSystem)．多Agent系统是由异构、分布、动态、大规模、自治A— gent构成的系统，即多Agent系统是由多个Ag ent组成的系统．通常认为Agent是一个具有自主性、社会能力和反应特征的计算机软／硬件系统，与单个Agent系统相比，多Agent系统有如下特点： · 由多个Agent构成，且系统分别建立每个Agent目标和行为模型； · 每个Agent只具有不完全的信息和问题求解能力，数据是分布的，控制也是分布的，计算过程是异步、并发和并行的； · 其他Ag ent行为将导致环境不确定的变化．因此多Ag ent系统本质是一个动态系统； ·Agent通过交互求解问题；多Agent系统的体系结构主要是指系统中的各 Agent之间的信息关系和控制关系，即各个Agent 以什么样的形式组织起来，以及每个 Agent具有什么样的结构来共同完成系统任务的求解，通过定义 Agent之间的权戚关系，为Agent提供一种交互框架．合理的结构形式可以提高系统的实时性和信息处理效率．多主体系统的体系结构的研究目标在于设计一个合理的硬件或软件系统结构以保证要求的A_ gent性能的实现．其层次结构如图1所示．目前，多Ag ent技术中Agent的学习方法以强化学习(reinforcementlearning)为主．强化学习过程收稿日期：2007—11—16 作者简介：梁宏倩 (1981一)，女，陕西西安人，西安文理学院计算机科学系助教；西安电子科技大学研究生院硕士研究生．研究方向：多媒体技术．维普资讯西安文理学院学报：自然科学版第 11卷中，自治Agent通过不断与环境的接触获取控制经验并改善控制行为．强化学习系统并不直接从学习中得到如何去产生正确的动作，而是由环境提供一种强化信号(奖励或惩罚信号)对产生动作的好坏做出一种评价 (通