- 27
- 0
- 约7.7万字
- 约 63页
- 2017-07-07 发布于上海
- 举报
连续时间分层强化学习算法毕业论文
连续时间分层强化学习算法
摘 要
分层强化学习,如Option、MAXQ等,通过引入抽象机制来解决大规模系
统的“维数灾问题,并具有加速策略学习的功能。Option算法是运用比较
广泛的一种分层强化学习算法,它通过引入宏,把任务按照一定的层次进
行分解,并只在调用子任务时才进行决策。
传统的Option算法基本上是建立在离散时间半马尔可夫决策过程和
折扣准则基础上,不能很好的解决连续时间无穷任务问题。因此,论文根
据Option算法的研究现状,考虑实际环境模型中的时间累积回报,以及
在大规模系统中平均准则的优越性,重点研究折扣或平均准则的连续时间
穷任务问题。
论文首先以单Agent系统为研究背景,在连续时间半马尔可夫决策过
程数学模型和性能势理论框架下,结合现有Option算法思想,给出一种
适用于平均或折扣性能准则的连续时间单Agent统一Option分层强化学
习模型和学习优化算法,用于解决连续时间无穷任务问题。另外,通过机
器人垃圾收集系统为仿真实例,说明这种分层强化学习优化算法与连续时
间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快
的优势。
其次,论文以多Agent系统为研究背景,在连续时间多Agent半马尔
可夫数学模型和性能势理论下,结合上面构造的连续时间统一Option算
法思想,给出一种在上层采用Agent之间进行宏行动交互,并适用于平均
或折扣性能准则的多Agent连续时间统一Option分层强化学习模型和学
习优化算法,用于解决连续时间多Agent无穷任务问题。另外,通过多
Agent垃圾收集系统为仿真实例,说明这种分层强化学习优化算法与上层
采用联合状态联合宏行动的多Agent连续时间Option算法相比,具有节
约存储空间、优化精度高和优化速度快的优势。
分层强化学习(HRL)、Option
J_ J●,耵● … ■ ● l 1一 ●f●
l
L0ntlnUOUSlmeHlerarchlCalRelnIorcement
’7 ‘
gninraeLmhtiroglA Algorithm
ABSTRACT
andSO
Hierarchicalreinforcement as on,
learning(HRL),suchOption,MAXQ
abstraction usedtosolvecurseof
be
byintroducing mechanism,Can dimensionality
accelerates is aextensive
problems,and policylearning.Optionalgorithm
hierarchicalreinforcement into
method,which
application learning decomposes
and asub-task.
sub—taskusemacrodoesn’tmaksadecisionuntil
by carrying
Thetaditional isbased d
您可能关注的文档
最近下载
- 人教版一年级下册数学全册单元教材分析.doc
- 专题17.阅读理解CD篇专练(新高考地区专用)-2022届新高考英语基础记忆及题型解题技巧(含答案解析).docx VIP
- 义煤集团宜阳义络煤业有限责任公司提升运输系统改造项目环境影响报告书.doc VIP
- 工程拆除安全责任保证书.docx VIP
- 亚洲象人工辅助育幼技术规范.docx VIP
- 2023年青岛远洋船员职业学院单招英语考试题库及答案解析.docx VIP
- 急性胸痛鉴别诊断救治流程.doc VIP
- 2024年青岛远洋船员职业学院单招英语考试试题及答案解析.docx VIP
- 拆除工程安全保证书.docx VIP
- 因式分解与二次根式.doc VIP
原创力文档

文档评论(0)