- 8
- 0
- 约14.02万字
- 约 84页
- 2020-11-11 发布于江西
- 举报
基于值的免模型深度强化学习算法研究与改进
摘 要
强化学习是一类关键的机器学习方法,普遍应用于以目标为导向的训练环境,并基
于目标在环境中自发地探索最优策略。近来已在一些领域,如游戏操控、机器人操控、
车辆自动驾驶等工程应用的部分问题中,获得显著的成绩,其中包括动态规划算法,应
用于已知完整的马尔可夫问题模型;蒙特卡洛算法,与时间差分算法基于无模型问题进
行寻策,是本文的主要研究内容。深度学习在机器学习中作为另一大热门研究技术,使
用非线性的神经网络于分析高维度输入数据的特征,从而学习用于各类场景。深度强化
学习通过深度学习分析状态空间特征,利用强化学习输出决策动作,从而能够解决现实
生活中高维度、大规模的寻策问题。
深度强化学习中,经验样本需要智能体在实际场景中经历得到,而经验样本在很大
程度影响智能体的学习成果。为了平衡探索度与最优贪心寻策的关系,常用的探索方法
在动作空间引入噪声来进行探索,该方法有简单且训练效率高的优点,但难以根据训练
进程进行调整。一种改进方法是在参数空间加入噪声,通过梯度下降学习噪声参数,在
增加探索度的同时也带来减缓训练进程的弊端。针对这个问题,本文提出了动态噪声竞
争Q 网络算法,结合竞争网络结构和动态噪声模型,实验结果表明,提出的方法取得了
更好的训练表现,训练稳定性有明显提升。
在稀疏奖赏环境中,智能体很容易在训练中获取不到任何信息,且容易陷入反复探
索已知状态的困境。为缓解这个问题,本文提出基于优先状态估计深度Q 网络算法,在
对状态进行访问时给予优先值,结合外部奖赏一并存入经验池中,引导探索的策略方向,
使得智能体更倾向于探索未知状态以打破困境。在简单稀疏奖赏环境中进行试验比,结
果表明该方法相对于基准算法在稀疏奖赏环境中具有更好的学习性能,取得了更高的平
均分数。然而更复杂的稀疏奖赏环境往往伴随着复杂动作序列,为了减少该问题带来的
影响,提出阶段式迁移学习方法,并利用实际游戏开发环境进行实验测试,结果表明阶
段式学习方法很好的引导了智能体的学习方向,取得了更好的训练表现。
关键词:强化学习;探索与利用;噪声探索;状态估计;迁移学习
Ⅰ
The study and improvement of value-based model-free deep reinforcement learning algorithm
Abstract
Reinforcement learning is one of the key machine learning methods, which is widely used
in the goal-oriented training environment. It has recently in some areas, such as game control,
robot control, automatic driving vehicle, and results in the part of the problem of engineering
application, including dynamic programming algorithm, is applied to the known complete
problem of markov model, monte carlo algorithm and time difference algorithm based on
model-free problems strategy searching, is the main research content of this article. As another
popular research technology in machine learning, deep learning uses nonlinear neural network
to analyze the characteristics of high-dimensional input data, so as to learn for various scenes.
Deep reinforcement learni
您可能关注的文档
最近下载
- 2026开封市第三届职业技能大赛汽车技术(世赛选拔)项目技术工作文件.pdf VIP
- 站用交直流电源系统技术规范第3部分:直流电源系统.pdf VIP
- 2024年初级会计职称《经济法基础》精讲课件.pptx VIP
- 2025年湖南机电职业技术学院单招职业技能测试题库及参考答案.docx VIP
- 2025年浙江机电职业技术学院单招(语文)测试试卷.docx VIP
- 泰国和中国合同模板(3篇).docx VIP
- 2025年湖南机电职业技术学院单招职业技能测试题库参考答案.docx VIP
- (2026春新版)人教版二年级数学下册《第三单元 万以内数的认识》教案.docx VIP
- 四年级小学下书法设计教案.doc VIP
- 烟气余热利用的热管式换热器设计(毕业论文).docx VIP
原创力文档

文档评论(0)