基于值学习与策略梯度的深度...习在核工程领域的适配性分析_谭思超.pdfVIP

基于值学习与策略梯度的深度...习在核工程领域的适配性分析_谭思超.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

网络首发时间:2024-08-0613:58:10

网络首发地址:/urlid/11.2044.TL0853.004

第xx卷第x期原子能科学技术Vol.

xx,

No.

x

xxxx年x月Atomic

Energy

Science

and

Technology

xxxx

基于值学习与策略梯度的深度强化学习

在核工程领域的适配性分析

1,2,3,*1,2,31,2,31,2,31,2,31,2,31,2,3,*1,2,3

谭思超,刘震,刘永超,李桐,梁彪,王博,李江宽,田瑞峰

(1.

哈尔滨工程大学

船舶热能动力全国重点实验室,

黑龙江

哈尔滨150001;

2.

哈尔滨工程大学

黑龙江省核动力装置性能与设备重点实验室,

黑龙江

哈尔滨150001;

3.

哈尔滨工程大学

核安全与先进核能技术工信部重点实验室,

黑龙江

哈尔滨150001)

摘要:深度强化学习能够实现端到端处理,将高维度的原始输入数据直接转化为输出动作。深度强化学习

按照间接和直接的策略优化方式,主要可分为基于值学习和基于策略梯度的两类方法。二者因原理不同,

在解决问题的能力和适用场景上存在差异。核领域中的决策问题状态参数维度高,同时决策参数与状态

参数之间存在强非线性关系,是深度强化学习的潜在应用场景。本文从强化学习的基本原理出发,归纳了

基于值学习和基于策略梯度的强化学习方法的机理差异,并结合目前研究现状对两类方法在核工程领域

可能的应用场景进行了深入分析。最后,总结了深度强化学习在后续应用中所面临的挑战及应用趋势。

关键词:人工智能;深度强化学习;值函数;策略梯度

中图分类号:TL362;TM623

文献标志码:A

文章编号:1000-6931(2024)00-0001-11

doi:10.7538/yzk.2024.youxian.0407

AdaptabilityAnalysisofValue-basedandPolicy-basedDeep

ReinforcementLearninginNuclearField

1,2,3,*1,2,31,2,31,2,31,2,3

TAN

Sichao,

LIU

Zhen,

LIU

Yo

文档评论(0)

137****8124 + 关注
实名认证
文档贡献者

机电工程师持证人

该用户很懒,什么也没介绍

领域认证该用户于2024年08月24日上传了机电工程师

1亿VIP精品文档

相关文档