- 20
- 0
- 约3.44万字
- 约 5页
- 2016-03-14 发布于安徽
- 举报
一种最大集合期望损失的多目标Sarsa(λ)算法.pdf
第 期 电 子 学 报
8 Vol.41 No.8
年 月
2013 8 ACTAELECTRONICASINICA Aug. 2013
一种最大集合期望损失的多目标 Sarsa()算法
λ
,
12 1 1 1 1
刘 全 ,李 瑾 ,傅启明 ,崔志明 ,伏玉琛
( 苏州大学计算机与科学学院,江苏苏州 ; 符号计算与知识工程教育部重点实验室(吉林大学),吉林长春 )
1. 2150002. 130012
摘 要: 针对RoboCup这一典型的多目标强化学习问题,提出一种基于最大集合期望损失的多目标强化学习算
法 ()算法 该算法预估各个目标的最大集合期望损失,在平衡各个目标的前提下选择最佳联合动作以产
LRGMSarsaλ .
生最优联合策略 在单个目标训练的过程中,采用基于改进 误差函数的 ()算法,并对动作选择概率函数和
. MSBR Sarsaλ
步长参数进行优化,解决了强化学习在使用非线性函数泛化时,算法不稳定、不收敛的问题 将该算法应用到
. RoboCup
射门局部策略训练中,取得了较好的效果,表明该学习算法的有效性.
关键词: 多目标;自适应Sarsa();最大集合期望损失;强化学习;机器人足球
λ
中图分类号: 文献标识码: 文章编号: ( )
TP181 A 03722112201308146905
电子学报 : : :
URL http//www.ejournal.org.cn DOI 10.3969/j.issn.03722112.2013.08.003
()
AMultipleGoalSarsa AlgorithmBased
λ
onLostRewardofGreatestMass
,
12 1 1 1 1
, , , ,
LIUQuan LIJin FUQimingCUIZhimingFUYuchen
( , , , , ;
1.InstituteofComputerScienceandTechnologySoocho
您可能关注的文档
- 一种SAR_GMTI空频联合处理杂波抑制技术的研究.pdf
- 一种专用可重配置的FPGA嵌入式存储器模块的设计和实现.pdf
- 一种二进制算术码的软解码算法.pdf
- 一种具有O信息复杂度的高速crossbar调度算法.pdf
- 一种具有新型分立介质支撑的翼片加载螺旋带慢波结构的研究.pdf
- 一种具有阶段优势的无锚点定位算法.pdf
- 一种分层判决结构的H.264_AVC快速帧间模式选择方法.pdf
- 一种变步长凸组合自适应滤波器及其均方性能分析.pdf
- 一种可变步长傅里叶分析器的统计特性分析.pdf
- 一种在双通道SAR图像域实现地面运动目标检测的方法.pdf
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
原创力文档

文档评论(0)