演化算法的DQN网络参数优化方法.pdfVIP

  • 1
  • 0
  • 约4.1万字
  • 约 13页
  • 2025-10-21 发布于海南
  • 举报

第44卷第2期西安工业大学学报Vol.44No.2

2024年4月JournalofXianTechnologicalUniversityApr.2024

DOI:10.16185/j.jxatu.edu.cn.2024.02.401http://xb.xatu.edu.cn

演化算法的DQN网络参数优化方法

李骁,徐恺

曹子建,郭瑞麒,贾浩文,李

(西安工业大学计算机科学与工程学院,西安710021)

摘要:为了解决DQN(DeepQNetwork)在早期会出现盲目搜索、勘探利用不均并导致整

个算法收敛过慢的问题,从探索前期有利于算法训练的有效信息获取与利用的角度出发,以差

分演化(DifferentialEvolution)算法为例,提出了一种基于演化算法优化DQN网络参数以加

快其收敛速度的方法(DE-DQN)。首先,将DQN的网络参数编码为演化个体;其次,分别采

用“运行步长”和“平均回报”两种适应度函数评价方式;利用CartPole控制问题进行仿真对

比,验证了两种评价方式的有效性。最后,实验结果表明,在智能体训练5000代时所提出的

改进算法,以“运行步长”为适应度函数时,在运行步长、平均回报和累计回报上分别提高了82.

7%,18.1%和25.1%,并优于改进DQN算法;以“平均回报”为适应度函数时,在运行步长、平均

回报和累计回报上分别提高了74.9%,18.5%和13.3%并优于改进DQN算法。这说明了DE-

DQN算法相较于传统的DQN及其改进算法前期能获得更多有用信息,加快收敛速度。

关键词:深度强化学习;深度Q网络;收敛加速;演化算法;自动控制

中图号:TP273文献标志码:A

MethodforOptimizingParametersofDeepQNetworkbasedon

EvolutionaryAlgorithms

CAOZijian,GUORuiqi,JIAHaowen,LIXiao,XUKai

(SchoolofComputerScienceandEngineering,XianTechnologicalUniversity,Xian710021,China)

Abstract:Thestudyaimstoaddresstheissuesofblindsearch,unevenexploration-exploitationand

slowconvergenceintheearlystagesofDQN(DeepQNetwork).Fromtheperspectiveofeffective

informationacquisitionandutilizationbeneficialforalgorithmtrainingandwithDifferentialEvolution

(DE)algorithmasanexample,thepaperpresentsamethodnamedDE-DQNforoptimizingthe

parametersoftheDQNnetworkbasedonevolutionaryalgorithms,aimingtoaccelerateitsconvergence

speed.Firstly,thenetworkparametersofDQNareencodedasevolutionaryindividuals.Secondly,two

fitnessevaluationmetrics,runlengthand“averagereturnareemplo

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档