- 40
- 0
- 约9.91万字
- 约 69页
- 2025-04-28 发布于广东
- 举报
基于状态空间数据增强的深度强化学习研究
摘要
传统的强化学习算法主要应用于低维,离散的状态和动作空间,而深度强化学习通
过使用深度神经网络直接从状态中提取特征来指导智能体进行决策,深度神经网络使强
化学习算法拥有了处理高维和复杂状态空间的能力。然而现实世界中与环境交互的代价
过于昂贵,且往往只能收集到有限数量的样本。因此,在深度强化学习中,提高样本利
用效率和增强深度神经网络的状态特征提取能力显得尤为关键。本文为解决以上提出的
问题,进行了相关的研究,本文工作总结如下:
软演员-评论家算法(SoftActor-Critic,SAC)是一种非常流行的深度强化学习算法,
通过引入熵正则项来鼓励智能体更多的探索状态空间,但是需要大量的环境交互数据对
网络进行训练。为解决样本效率问题,本文首先提出了基于周期性状态空间数据增强的
SAC算法(SACAlgorithmbasedonPeriodicStateSpaceDataAugmentation,PDA-SAC),
通过在状态空间中加入图像填充与像素层面的数据增强,增加了状态样本的复杂性和多
样性,并将数据增强操作与马尔可夫决策过程相结合,重新定
原创力文档

文档评论(0)