网站大量收购独家精品文档,联系QQ:2885784924

多Agent系统中Q学习算法研究.pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多Agent系统中Q学习算法研究.pdf

第 l0卷 第5期 辽宁农业职业技术学院学报 Vo1.1O.No,5 2o08年 9月 JoumalofLia0ningA cIllturalCouege SeDt.20o8 多Agent系统中Q学习算法研究 战忠丽 ,王 强。,王佩霞 (1.辽宁农业职业技术学院,辽宁 营口 115Oo9;2.吉林电子信息职业技术学院,吉林 吉林 132021) 摘 要 :为了提高多Agent系统中的典型的强化学习——Q学习的学习效率和收敛速度,充分利用环境信息和相 关的专家经验 ,提出了改进的多Agent系统强化学习算法(Q学习算法)。该算法通过Agem问对信息的共享,有效 地将 Q学习算法扩展应用到多Agent系统中。 关键词 :强化学习;Q学习;多Agent系统 中图分类号:rrPl8 文献标识码:A 文章编号:1671—0517(20o8)o5—0o48一o3 多Agent系统的理论和应用研究是 目前人工智 强化值, 且影响环境下一时刻的状态及最终的强 能领域的研究热点。多Agent系统中,每个智能体 行为 A 都具有基本行为,通常只处理 自身相关的局部信息 和 目标。由于多Agent系统的动态性、实时性、分布 性、随机性等特点,智能体必须具有学习能力才能与 环境 自主交互、分析学习外部环境、建立环境模型, 模仿人类思维方式学习个体技能、战术策略、协作方 化值。 图l强化学习基本原理 式,从而提高多 Agent系统的智能水平。机器学习 Q—leaming是强化学习的主要算法之一,是模 是智能体提高智能性、协调性、适应性的基本途径。 型无关的学习算法。Q—leaming基于的一个关键 具有学习能力的智能体可 自主获取知识、积累经验、 假设是把智能体和环境的交互看作为一个马尔可夫 更新扩充知识、改善知识性能。 (Markov)决策过程(MDP),即智能体当前所处的状 本文以强化学习的主要算法一 Q—leaming 态和所选择的动作,决定一个固定的状态转移概率 为基础 ,提出了改进的多Agent系统强化学习算法, 分布、下一个状态、并得到一个即时回报值。Q— 让Agent感知 自己和其他Agent对环境所施加的影 leaming的目标是通过对客观世界采样 ,寻找一个策 响,实现了多Agent问信息的共享与合作,从而优化 略可以最大化将来获得的报酬。 学习状态,提高学习效率。最后进行仿真实验对该 Q学习中,每个(状态 s一动作 a)对对应一个相 方法进行验证。 应的Q(s,a)值,在学习过程中根据 Q(s,a)值,选择 1 强化学习与 Q学习 动作 a。Q(s,a)是从状态 s执行当前相关的动作 a 并且按照某一策略执行下去,获得的累计 回报值。 强化学习是一种不同于监督学习和无监督学习 最优 Q值可表示为 Q ,其定义是表示Agent在状态 方法的在线学习技术,基本原理如图l所示 。它把 s下执行相关 的动作 a并按照最优策略执行下去, 学习看怍是一个试探评价的过程,首先强化学习系 所获得的回报折扣和,其定义如下 统(一般是一个智能体)感知环境状态,采取某一个 Q(‘5,n): (s,0) ∑ (s,口,5) Q(s,。) 行动作用于环境;环境接受该动作后状态发生变化,

文档评论(0)

docinpfd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档