一种最大集合期望损失的多目标Sarsa(λ)算法.pdfVIP

  • 20
  • 0
  • 约3.44万字
  • 约 5页
  • 2016-03-14 发布于安徽
  • 举报

一种最大集合期望损失的多目标Sarsa(λ)算法.pdf

一种最大集合期望损失的多目标Sarsa(λ)算法.pdf

第 期 电 子 学 报 8 Vol.41 No.8 年 月 2013 8 ACTAELECTRONICASINICA Aug. 2013 一种最大集合期望损失的多目标 Sarsa()算法 λ , 12 1 1 1 1 刘 全 ,李 瑾 ,傅启明 ,崔志明 ,伏玉琛 ( 苏州大学计算机与科学学院,江苏苏州 ; 符号计算与知识工程教育部重点实验室(吉林大学),吉林长春 ) 1. 2150002. 130012 摘 要: 针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算 法 ()算法 该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产 LRGMSarsaλ . 生最优联合策略 在单个目标训练的过程中,采用基于改进 误差函数的 ()算法,并对动作选择概率函数和 . MSBR Sarsaλ 步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题 将该算法应用到 . RoboCup 射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性. 关键词: 多目标;自适应Sarsa();最大集合期望损失;强化学习;机器人足球 λ 中图分类号: 文献标识码: 文章编号: ( ) TP181 A 03722112201308146905 电子学报 : : : URL http//www.ejournal.org.cn DOI 10.3969/j.issn.03722112.2013.08.003 () AMultipleGoalSarsa AlgorithmBased λ onLostRewardofGreatestMass , 12 1 1 1 1 , , , , LIUQuan LIJin FUQimingCUIZhimingFUYuchen ( , , , , ; 1.InstituteofComputerScienceandTechnologySoocho

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档