增强Q学习在非确定马尔可夫系统寻优问题中的应用.pdfVIP

  • 2
  • 0
  • 约3.09万字
  • 约 4页
  • 2018-03-03 发布于河南
  • 举报

增强Q学习在非确定马尔可夫系统寻优问题中的应用.pdf

增强Q学习在非确定马尔可夫系统寻优问题中的应用

增强! 学习在非确定马尔可夫系统 寻优问题中的应用 郭 锐 彭 军 吴 敏 (中南大学信息科学与工程学院,长沙 E %H# ) 摘 要 增强学习属于机器学习的一种,它通过与环境的交互获得策略的改进,其在线学习和自适应学习的特点使其成 为解决策略寻优问题有力的工具。多智能体系统是人工智能领域的一个研究热点,对于多智能体学习技术的研究需要建 立在系统环境模型的基础之上,由于多个智能体的存在,智能体之间的相互影响使得多智能体系统高度复杂,多智能体 系统环境属于非确定马尔可夫模型,因此直接把基于马尔可夫模型的增强学习技术引入多智能体系统是不合适的。论文 基于智能体间独立的学习机制,提出了一种改进的多智能体 G 学习算法,使其适用于非确定马尔可夫环境,并对该学习 技术在多智能体系统13I3J8K 中的应用进行了研究,实验证明了该学习技术的有效性与泛化能力,最后简要给出了多智 能体增强学习研究的方向及进一步的工作。 关键词 多智能体 增强学习 非确定马尔可夫系统 策略寻优 文章编号 ( ) 文献标识码 中图分类号 %!:L%: !# %:M: ; ND!E #$ %’()*+(,- ,. /$(-.,0)$1$-+ 2$*0-(-3 (- 4,-5$+$01(-(6+() 7896 9,’(): ;(-5(-3 !$6+(,- =, /( 9$-3 - ? 7(- ( , , ) )*339 32 ?,23/4(5+3, )+-,)- (,C O,0+,--/+,0 J-,5/(9 385* P,+Q-/+5= J*(,0*( E %H# : , %@6+0*)+ 1-+,23/)-4-,5 9-(/,+,0 I-93,0 53 4()*+,- 9-(/,+,0 R+5* +5 (, (853,3438 9-(/,+,0 (0-,5 )(, +4K/3Q- +5 ()5+3, K39+)= I= +,5-/()5+,0 R+5* -,Q+/3,4-,5$SR+,0 53 3, :9+,- 9-(/,+,0 (I+9+5= (,C -92 :(C(K5-C (I+9+5= /-+,23/)-4-,5 ( ) 9-(/,+,0 I-)34- ( K3R-/289 5339 23/ 3K5+4(9 K39+)= 2+,C+,0 T8-5+3,$’895+:;0-,5 =5-4 ’; + (, ()5+Q- 8I2+-9C 32 , , , ;? 23/ 5*- K/--,)- 32 35*-/ (0-,5 +5 + C+22+)895 53 2+,C (, 3K5+4(9 ()5+3, K39+)= -Q-, 23/ ( +,09- (0-,5 3IQ+389= 5*- ( ) , -,Q+/3,4-,5 32 ’; + (, ,3,C-5-/4+,+5+) ’(/U3Q V-)++3, D/3)-- ’VD 3

文档评论(0)

1亿VIP精品文档

相关文档