演化算法的DQN网络参数优化方法.pdfVIP

演化算法的DQN网络参数优化方法.pdf

第44卷第2期西安工业大学学报Vol.44No.2

2024年4月JournalofXianTechnologicalUniversityApr.2024

DOI:10.16185/j.jxatu.edu.cn.2024.02.401http://xb.xatu.edu.cn

演化算法的DQN网络参数优化方法

李骁，徐恺

曹子建，郭瑞麒，贾浩文，李

（西安工业大学计算机科学与工程学院，西安710021)

摘要：为了解决DQN(DeepQNetwork)在早期会出现盲目搜索、勘探利用不均并导致整

个算法收敛过慢的问题，从探索前期有利于算法训练的有效信息获取与利用的角度出发，以差

分演化(DifferentialEvolution)算法为例，提出了一种基于演化算法优化DQN网络参数以加

快其收敛速度的方法（DE-DQN）。首先，将DQN的网络参数编码为演化个体；其次，分别采

用“运行步长”和“平均回报”两种适应度函数评价方式；利用CartPole控制问题进行仿真对

比，验证了两种评价方式的有效性。最后，实验结果表明，在智能体训练5000代时所提出的

改进算法，以“运行步长”为适应度函数时，在运行步长、平均回报和累计回报上分别提高了82.

7%，18.1%和25.1%，并优于改进DQN算法；以“平均回报”为适应度函数时，在运行步长、平均

回报和累计回报上分别提高了74.9%，18.5%和13.3%并优于改进DQN算法。这说明了DE-

DQN算法相较于传统的DQN及其改进算法前期能获得更多有用信息，加快收敛速度。

关键词：深度强化学习；深度Q网络；收敛加速；演化算法；自动控制

中图号：TP273文献标志码：A

MethodforOptimizingParametersofDeepQNetworkbasedon

EvolutionaryAlgorithms

CAOZijian,GUORuiqi,JIAHaowen,LIXiao,XUKai

(SchoolofComputerScienceandEngineering,XianTechnologicalUniversity,Xian710021,China)

Abstract:Thestudyaimstoaddresstheissuesofblindsearch,unevenexploration-exploitationand

slowconvergenceintheearlystagesofDQN(DeepQNetwork).Fromtheperspectiveofeffective

informationacquisitionandutilizationbeneficialforalgorithmtrainingandwithDifferentialEvolution

(DE)algorithmasanexample,thepaperpresentsamethodnamedDE-DQNforoptimizingthe

parametersoftheDQNnetworkbasedonevolutionaryalgorithms,aimingtoaccelerateitsconvergence

speed.Firstly,thenetworkparametersofDQNareencodedasevolutionaryindividuals.Secondly,two