基于状态空间数据增强的深度强化学习研究.pdfVIP

  • 40
  • 0
  • 约9.91万字
  • 约 69页
  • 2025-04-28 发布于广东
  • 举报

基于状态空间数据增强的深度强化学习研究.pdf

基于状态空间数据增强的深度强化学习研究

摘要

传统的强化学习算法主要应用于低维,离散的状态和动作空间,而深度强化学习通

过使用深度神经网络直接从状态中提取特征来指导智能体进行决策,深度神经网络使强

化学习算法拥有了处理高维和复杂状态空间的能力。然而现实世界中与环境交互的代价

过于昂贵,且往往只能收集到有限数量的样本。因此,在深度强化学习中,提高样本利

用效率和增强深度神经网络的状态特征提取能力显得尤为关键。本文为解决以上提出的

问题,进行了相关的研究,本文工作总结如下:

软演员-评论家算法(SoftActor-Critic,SAC)是一种非常流行的深度强化学习算法,

通过引入熵正则项来鼓励智能体更多的探索状态空间,但是需要大量的环境交互数据对

网络进行训练。为解决样本效率问题,本文首先提出了基于周期性状态空间数据增强的

SAC算法(SACAlgorithmbasedonPeriodicStateSpaceDataAugmentation,PDA-SAC),

通过在状态空间中加入图像填充与像素层面的数据增强,增加了状态样本的复杂性和多

样性,并将数据增强操作与马尔可夫决策过程相结合,重新定

文档评论(0)

1亿VIP精品文档

相关文档