模型无关的贝叶斯强化学习方法研究 中文摘要
模型无关的贝叶斯强化学习方法研究
中文摘要
强化学习是一类重要的机器学习方法,强化学习具有两个重要的特征:算法可以
在不知道环境的全部模型时,求解模型未知的最优化问题;强化学习强调 Agent 与环
境的在线交互,在交互过程中对数据进行累积学习,以达到在线求解最优策略的目的。
因此,强化学习方法被越来越多地用于作业优化调度、在线学习控制、游戏等领域。
针对于强化学习方法存在的 “维数灾难”、收敛速度慢、收敛精度低等问题,本文以
模型无关的贝叶斯强化学习为出发点,提出了几种模型无关的贝叶斯强化学习算法,
主要研究概括为以下 3 个方面。
(1)针对贝叶斯 Q 学习存在收敛速度慢且收敛精度低的问题,提出一种基于优
先级扫描 Dyna 结构的贝叶斯 Q 学习方法。该方法主要分为 2 部分:学习部分和规划
部分。基于学习部分建立的模型,规划部分使用优先级扫描方法和动态规划方法对动
作值函数进行规划更新。从理论上分析了算法的收敛性,并通过实验表明该方法能较
好地平衡探索与利用,且具有较优的收敛速度及收敛精度。
(2 )针对状态空间中的有效样本选择问题,在高斯过程时间差分算法框架下,
提出一种基于随机投影的高斯过程时间差分算法。利用哈希函数把状态集合中的元素
映射成哈希值,根据哈希值分组,来减少状态之间的比较。实验结果表明该方法能够
提高算法的执行速度,且在评估状态值函数精度和算法执行时间上有较好地平衡。
(3 )针对蒙特卡洛方法对梯度的估计易导致高方差,初始性能不够稳定的问题,
提出一种基于状态依赖探索的贝叶斯策略梯度算法。将策略梯度模型化为一个高斯过
程,利用贝叶斯积分方法来评估策略,在每一个状态下引入状态依赖探索函数,不仅
可以克服因算法初始策略的随机性带来的不稳定,而且可以减小每个情节中估计的方
差,使得算法具有更快的收敛速度和鲁棒性。
关键词: 强化学习,贝叶斯 Q 学习,随机投影,高斯过程,贝叶斯策略梯度
作 者:于 俊
指导教师:刘 全 (教授)
I
Abstract Research on Model-Free Bayesian Reinforcement Learning
Research on Model-Free Bayesian
Reinforcement Learning
Abstract
Rein orcement learning is one of the most important machine learning methods,
which has two major features. Firstly, reinforcement learning algorithms can solve the
optimization problems in which the environment is not fully known. Secondly,
reinforcement learning emphasizes the online interaction between the agent and the
environment, namely, concurrently with the a
您可能关注的文档
最近下载
- 2025新教材-译林版-七年级英语-上册-单词表.xlsx VIP
- 山西省农村信用社(农村商业银行合作银行)个人网上银行.pdf VIP
- XX市非公经济人才引进问题研究XX市重点软科学项目R2004A04研究报告 1【XX市重点软科学项目R2004A04研究报告】XX市非公经济人才引进问题研究执笔: XX大学经济学院 张一力课题主持人:张一力 副.doc VIP
- 船舶空调装置的实例与管理课件.PPT VIP
- 2025-2026学年黑龙江省大庆市高三上学期一模物理试题(附答案解析).docx VIP
- 软科学课题研究报告.doc VIP
- 高中物理必修2全册基础典型练习题(精品含答案).pdf VIP
- 便民摊点抓阄方案.doc VIP
- 中国领汇团队公开课一外汇通论.ppt
- 八年级物理 第6章 质量与密度 精选单元测试题(含答案).doc VIP
原创力文档

文档评论(0)