模型无关的贝叶斯强化学习方法的研究.pdf

模型无关的贝叶斯强化学习方法研究 中文摘要 模型无关的贝叶斯强化学习方法研究 中文摘要 强化学习是一类重要的机器学习方法,强化学习具有两个重要的特征:算法可以 在不知道环境的全部模型时,求解模型未知的最优化问题;强化学习强调 Agent 与环 境的在线交互,在交互过程中对数据进行累积学习,以达到在线求解最优策略的目的。 因此,强化学习方法被越来越多地用于作业优化调度、在线学习控制、游戏等领域。 针对于强化学习方法存在的 “维数灾难”、收敛速度慢、收敛精度低等问题,本文以 模型无关的贝叶斯强化学习为出发点,提出了几种模型无关的贝叶斯强化学习算法, 主要研究概括为以下 3 个方面。 (1)针对贝叶斯 Q 学习存在收敛速度慢且收敛精度低的问题,提出一种基于优 先级扫描 Dyna 结构的贝叶斯 Q 学习方法。该方法主要分为 2 部分:学习部分和规划 部分。基于学习部分建立的模型,规划部分使用优先级扫描方法和动态规划方法对动 作值函数进行规划更新。从理论上分析了算法的收敛性,并通过实验表明该方法能较 好地平衡探索与利用,且具有较优的收敛速度及收敛精度。 (2 )针对状态空间中的有效样本选择问题,在高斯过程时间差分算法框架下, 提出一种基于随机投影的高斯过程时间差分算法。利用哈希函数把状态集合中的元素 映射成哈希值,根据哈希值分组,来减少状态之间的比较。实验结果表明该方法能够 提高算法的执行速度,且在评估状态值函数精度和算法执行时间上有较好地平衡。 (3 )针对蒙特卡洛方法对梯度的估计易导致高方差,初始性能不够稳定的问题, 提出一种基于状态依赖探索的贝叶斯策略梯度算法。将策略梯度模型化为一个高斯过 程,利用贝叶斯积分方法来评估策略,在每一个状态下引入状态依赖探索函数,不仅 可以克服因算法初始策略的随机性带来的不稳定,而且可以减小每个情节中估计的方 差,使得算法具有更快的收敛速度和鲁棒性。 关键词: 强化学习,贝叶斯 Q 学习,随机投影,高斯过程,贝叶斯策略梯度 作 者:于 俊 指导教师:刘 全 (教授) I Abstract Research on Model-Free Bayesian Reinforcement Learning Research on Model-Free Bayesian Reinforcement Learning Abstract Rein orcement learning is one of the most important machine learning methods, which has two major features. Firstly, reinforcement learning algorithms can solve the optimization problems in which the environment is not fully known. Secondly, reinforcement learning emphasizes the online interaction between the agent and the environment, namely, concurrently with the a

文档评论(0)

1亿VIP精品文档

相关文档