- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第45卷第1期南京邮电大学学报(自然科学版)Vol.45No.1
2025年2月JournalofNanjingUniversityofPostsandTelecommunication(NaturalScienceEdition)Feb.2025
doi:10.14132/ki.1673-5439.2025.01.011
一种进化梯度引导的强化学习算法
许斌,练元洪,卞鸿根,刘丹,亓晋
(南京邮电大学物联网学院,江苏南京210003)
摘要:进化算法(EvolutionaryAlgorithm,EA)和深度强化学习(DeepReinforcementLearning,DRL)
的组合被认为能够结合二者的优点,即EA的强大随机搜索能力和DRL的样本效率,实现更好的策
略学习。然而,现有的组合方法存在EA引入所导致的策略性能不可预测性问题。提出自适应历
史梯度引导机制,其利用历史梯度信息,找到平衡探索和利用的线索,从而获得较为稳定的高质量
策略,进一步将此机制融合经典的进化强化学习算法,提出一种进化梯度引导的强化学习算法
(EvolutionaryGradientGuidedReinforcementLearning,EGG⁃RL)。在连续控制任务方面的实验表
明,EGG⁃RL的性能表现优于其他方法。
关键词:CEM⁃RL;深度强化学习;进化算法;历史梯度
中图分类号:TP181文献标识码:A文章编号:1673⁃5439(2025)01⁃0099⁃07
Reinforcementlearningalgorithmguidedby
evolutionarygradient
XUBin,LIANYuanhong,BIANHonggen,LIUDan,QIJin
(SchoolofInternetofThings,NanjingUniversityofPostsandTelecommunications,Nanjing210003,China)
Abstract:Thecombinationofevolutionaryalgorithms(EAs)anddeepreinforcementlearning(DRL)is
consideredtobeabletocombinetheadvantagesofboth,namelythestrongthestrongrandomsearchability
ofEAandthesampleefficiencyofDRL,totoachievebetterstrategylearning.However,theexistingcombi⁃
nationmethodshavetheproblemofunpredictabilityofpolicyperformancecausedbytheintroductionof
EA.Anadaptivehistoricalgradientguidancemechanismisproposed.Ituseshistoricalgradientinformation
tofindcluestobalanceexplorationandutilization,soastoobtainamorestablehigh-qualitystrategy.Fur⁃
ther,thismechanism
您可能关注的文档
- 一种基于指令流水线的数据匹配算法.pdf
- 一种基于指纹特征的加密网页识别方法.pdf
- 一种基于种群划分的分布式自适应差分进化算法.pdf
- 一种基于主从模式的分片区块链矩阵框架.pdf
- 一种基于注意力机制的BERT-CNN-GRU检测方法.pdf
- 一种基于自编码器的无监督漂移检测算法.pdf
- 一种基于自编码器降维的神经卷积网络入侵检测模型.pdf
- 一种基于自适应PoT量化的无乘法神经网络训练方法.pdf
- 一种基于自适应扰动观测器控制的竖直状水下机器人.pdf
- 一种集成电路成品量产测试系统搭建方法.pdf
- 2026年投资项目管理师之宏观经济政策考试题库300道附答案【精练】.docx
- 超星尔雅学习通《形势与政策(2025春)》章节测试附完整答案(网校专用).docx
- 超星尔雅学习通《形势与政策(2025春)》章节测试带答案(研优卷).docx
- 超星尔雅学习通《形势与政策(2026春)》章节测试题附参考答案(实用).docx
- 2026年刑法知识考试题库a4版.docx
- 2026年刑法知识考试题库标准卷.docx
- 2026福建泉州市面向华南理工大学选优生选拔引进考试题库新版.docx
- 2026年国家电网招聘之文学哲学类考试题库300道含完整答案(夺冠).docx
- 2026年法律职业资格之法律职业客观题一考试题库300道含答案【巩固】.docx
- 2026年刑法知识考试题库【精练】.docx
最近下载
- DB23_T 3965-2025 寒区公路路域植物恢复技术规范.pdf VIP
- 同步摊铺超薄沥青混凝土施工技术规程.pdf VIP
- 500kV变电站运维精益化管理分析.doc VIP
- DB23_T 3956-2025 杨柳科树木扦插育苗地除草技术规程.pdf VIP
- DB23_T 3958-2025 大叶芹日光温室种植技术规程.pdf VIP
- DB23_T 3959-2025 树莓保鲜与贮藏技术规程.pdf VIP
- 空气理化检验试题汇总.doc VIP
- 现代控制理论课后-习题答案.doc
- 广东省深圳市深圳实验学校2026届数学八上期末综合测试试题含解析.doc VIP
- 部编版小学语文二年级上册第八单元测试卷含答案(共2套).doc VIP
- 1.ppt制作及优化;2.办公模板制作;3.文案制作及优化。 + 关注
-
实名认证服务提供商
教师资格证、公共营养师持证人
本人专注ppt制作、办公模板编辑六年有余,可以根据客户需求做出高品质ppt、办公表格等模板,以及文案等。
原创力文档


文档评论(0)