多Agent系统中Q学习算法研究.pdfVIP

下载本文档

10
0
约9.3千字
约 3页
2017-08-12 发布于重庆
举报
版权申诉

多Agent系统中Q学习算法研究.pdf

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多Agent系统中Q学习算法研究.pdf

第 l0卷第5期辽宁农业职业技术学院学报 Vo1．1O．No，5 2o08年 9月 JoumalofLia0ningA cIllturalCouege SeDt．20o8 多Agent系统中Q学习算法研究战忠丽，王强。，王佩霞 (1．辽宁农业职业技术学院，辽宁营口 115Oo9；2．吉林电子信息职业技术学院，吉林吉林 132021) 摘要：为了提高多Agent系统中的典型的强化学习——Q学习的学习效率和收敛速度，充分利用环境信息和相关的专家经验，提出了改进的多Agent系统强化学习算法(Q学习算法)。该算法通过Agem问对信息的共享，有效地将 Q学习算法扩展应用到多Agent系统中。关键词：强化学习；Q学习；多Agent系统中图分类号：rrPl8 文献标识码：A 文章编号：1671—0517(20o8)o5—0o48一o3 多Agent系统的理论和应用研究是目前人工智强化值，且影响环境下一时刻的状态及最终的强能领域的研究热点。多Agent系统中，每个智能体行为 A 都具有基本行为，通常只处理自身相关的局部信息和目标。由于多Agent系统的动态性、实时性、分布性、随机性等特点，智能体必须具有学习能力才能与环境自主交互、分析学习外部环境、建立环境模型，模仿人类思维方式学习个体技能、战术策略、协作方化值。图l强化学习基本原理式，从而提高多 Agent系统的智能水平。机器学习 Q—leaming是强化学习的主要算法之一，是模是智能体提高智能性、协调性、适应性的基本途径。型无关的学习算法。Q—leaming基于的一个关键具有学习能力的智能体可自主获取知识、积累经验、假设是把智能体和环境的交互看作为一个马尔可夫更新扩充知识、改善知识性能。 (Markov)决策过程(MDP)，即智能体当前所处的状本文以强化学习的主要算法一 Q—leaming 态和所选择的动作，决定一个固定的状态转移概率为基础，提出了改进的多Agent系统强化学习算法，分布、下一个状态、并得到一个即时回报值。Q— 让Agent感知自己和其他Agent对环境所施加的影 leaming的目标是通过对客观世界采样，寻找一个策响，实现了多Agent问信息的共享与合作，从而优化略可以最大化将来获得的报酬。学习状态，提高学习效率。最后进行仿真实验对该 Q学习中，每个(状态 s一动作 a)对对应一个相方法进行验证。应的Q(s，a)值，在学习过程中根据 Q(s，a)值，选择 1 强化学习与 Q学习动作 a。Q(s，a)是从状态 s执行当前相关的动作 a 并且按照某一策略执行下去，获得的累计回报值。强化学习是一种不同于监督学习和无监督学习最优 Q值可表示为 Q ，其定义是表示Agent在状态方法的在线学习技术，基本原理如图l所示。它把 s下执行相关的动作 a并按照最优策略执行下去，学习看怍是一个试探评价的过程，首先强化学习系所获得的回报折扣和，其定义如下统(一般是一个智能体)感知环境状态，采取某一个 Q(‘5，n)： (s，0) ∑ (s，口，5) Q(s，。) 行动作用于环境；环境接受该动作后状态发生变化，