面向强化学习的规划优化方法的研究.pdf

下载文档 降价啦

4
0
约 69页
2015-10-03 发布于安徽
举报
保障服务

面向强化学习的规划优化方法的研究.pdf

面向强化学习的规划优化方法研究中文摘要面向强化学习的规划优化方法研究中文摘要强化学习(reinforcement learning, RL)是一类重要的机器学习方法，在智能机器人、经济学、工业制造和博弈等领域得到了广泛的应用。强化学习是一种从环境状态到动作映射的学习，并期望动作从环境中获得的累积奖赏最大。强化学习可分为两个基本的过程：学习过程与规划过程。学习是指Agent 与环境直接交互的过程，并在此过程中利用获得的直接经验来更新值函数以改进策略。规划是指在环境模型中进行学习的过程，并在此过程中利用模型产生的模拟经验来更新值函数以改进策略。针对强化学习方法在处理大状态空间问题时候存在的“维数灾”及收敛速度慢等普遍的严重问题，本文从提升规划收敛性能的角度出发，分别针对模型已知和模型未知的强化学习任务提出了 2 种优化的强化学习算法，主要研究内容概括如下： (1) 提出了一种基于拓扑序列更新的值迭代算法—VI-TS 算法，以提升传统值迭代算法的收敛速度和稳定性。VI-TS 算法通过构造任务模型的有向图，分解出有向图的强连通变量，依照拓扑序列计算强连通分量中状态的值函数，以实现整个任务的求解。分解后的状态空间维度降低了，且算法迭代扫描的次数大幅减少，使得规划效率显著提高。VI-TS 算法使用启发式搜索剔除动作空间中的非优动作，使得算法具有普遍适用性。本文分析了 VI-TS 算法收敛性，并通过实验来检验算法的收敛性和适用性。 (2) 提出了一种基于优先级扫描的 Dyna 结构优化算法—Dyna-PS 算法，以进一步提高传统 Dyna 结构的收敛速度和收敛精度。Dyna-PS 算法在 Dyna 结构规划部分采用优先级扫描算法的思想，对优先级函数值高的状态优先更新，剔除了传统值迭代、策略迭代过程中不相关和无更新意义的状态更新，提升了规划的收敛效率，从而进一步提升了 Dyna 结构算法的性能。本文在理论上对 Dyna-PS 的收敛性进行了证明，且通过实验验证了 Dyna-PS 算法的性能并做了相关分析。关键词：强化学习，规划，拓扑序列，VI-TS ，优先级扫描，Dyna-PS 作者：孙洪坤指导教师：刘全（教授） I Abstract Research on Optimized Methods of Planning within Reinforcement Learning Research on Optimized Methods of Planning within Reinforcement Learning Abstract Reinforcement learning is an important kind of machine learning methods that has been widely applied in robotics, economics, industrial manufacturing and games and so on. Reinforcement learning is a process of state from the environment mapping to actions and expects the largest accumulated reward of the actions from the environment. Reinforcement learning might be divided into two basic processes: learni

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

面向强化学习的规划优化方法的研究.pdf