面向强化学习的规划优化方法研究 中文摘要
面向强化学习的规划优化方法研究
中文摘要
强化学习(reinforcement learning, RL)是一类重要的机器学习方法,在智能机器人、
经济学、工业制造和博弈等领域得到了广泛的应用。强化学习是一种从环境状态到动
作映射的学习,并期望动作从环境中获得的累积奖赏最大。强化学习可分为两个基本
的过程:学习过程与规划过程。学习是指Agent 与环境直接交互的过程,并在此过程
中利用获得的直接经验来更新值函数以改进策略。规划是指在环境模型中进行学习的
过程,并在此过程中利用模型产生的模拟经验来更新值函数以改进策略。
针对强化学习方法在处理大状态空间问题时候存在的“维数灾”及收敛速度慢等
普遍的严重问题,本文从提升规划收敛性能的角度出发,分别针对模型已知和模型未
知的强化学习任务提出了 2 种优化的强化学习算法,主要研究内容概括如下:
(1) 提出了一种基于拓扑序列更新的值迭代算法—VI-TS 算法,以提升传统值迭
代算法的收敛速度和稳定性。VI-TS 算法通过构造任务模型的有向图,分解出有向图
的强连通变量,依照拓扑序列计算强连通分量中状态的值函数,以实现整个任务的求
解。分解后的状态空间维度降低了,且算法迭代扫描的次数大幅减少,使得规划效率
显著提高。VI-TS 算法使用启发式搜索剔除动作空间中的非优动作,使得算法具有普
遍适用性。本文分析了 VI-TS 算法收敛性,并通过实验来检验算法的收敛性和适用性。
(2) 提出了一种基于优先级扫描的 Dyna 结构优化算法—Dyna-PS 算法,以进一步
提高传统 Dyna 结构的收敛速度和收敛精度。Dyna-PS 算法在 Dyna 结构规划部分采
用优先级扫描算法的思想,对优先级函数值高的状态优先更新,剔除了传统值迭代、
策略迭代过程中不相关和无更新意义的状态更新,提升了规划的收敛效率,从而进一
步提升了 Dyna 结构算法的性能。本文在理论上对 Dyna-PS 的收敛性进行了证明,且
通过实验验证了 Dyna-PS 算法的性能并做了相关分析。
关键词:强化学习,规划,拓扑序列,VI-TS ,优先级扫描,Dyna-PS
作 者:孙洪坤
指导教师:刘 全(教授)
I
Abstract Research on Optimized Methods of Planning within Reinforcement Learning
Research on Optimized Methods of Planning
within Reinforcement Learning
Abstract
Reinforcement learning is an important kind of machine learning methods that has
been widely applied in robotics, economics, industrial manufacturing and games and so on.
Reinforcement learning is a process of state from the environment mapping to actions and
expects the largest accumulated reward of the actions from the environment.
Reinforcement learning might be divided into two basic processes: learni
您可能关注的文档
最近下载
- ArcGIS地理信息系统空间分析实验教程 矢量数据的空间分析.pptx VIP
- 静脉输血法操作并发症的预防及处理措施.docx VIP
- 固体化学:第二章 固体中的键合力.pdf VIP
- [精华]休闲农业(课件).ppt VIP
- 高中心理健康教育与学生压力管理的关系教学研究课题报告.docx
- 固体化学:第四章 固体的其它鉴定技术2.pdf VIP
- 固体化学:第四章 固体的其它鉴定技术1.pdf VIP
- 南方电网招聘考试笔试备考题库.docx VIP
- 2025中国南方电网有限责任公司校园招聘笔试备考试题附答案解析.docx VIP
- 2025中国南方电网有限责任公司春季校园招聘笔试备考题库附答案解析.docx VIP
原创力文档

文档评论(0)