改进的PPO算法在炼钢-连铸动态调度中的应用研究.pdfVIP

下载本文档

1
0
约10.42万字
约 77页
2025-09-09 发布于江西
举报
版权申诉

改进的PPO算法在炼钢-连铸动态调度中的应用研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

改进的PPO算法在炼钢-连铸动态调度中的应用研究

摘要

炼钢-连铸作为钢铁制造全流程中的核心区段，优化炼钢-连铸生产调度对钢铁

企业降低生产成本、提高生产效率、实现智能化和绿色化制造起着关键的作用。炼

钢-连铸生产工艺十分复杂导致生产过程中经常出现不可预测的扰动事件，如设备发

生故障、随机订单插入等，目前的传统算法难以应用到这种动态的生产环境中，人

工调整难以满足对突发事件快速响应和生成可行调度方案的需求。为应对复杂多变

的炼钢-连铸动态调度需求，迫切需要设计一种高效、可实时响应扰动事件的调度方

法。本文提出了一种基于优先经验回放的双动作近端策略优化算法（Priority

ExperiencePlayback-DoubleActionProximalPolicyOptimization，PER-DAPPO），并

应用到炼钢-连铸动态调度问题中。主要研究工作如下：

（1）首先分析了现有炼钢-连铸动态调度存在的问题和研究方法，阐述了研究

优化炼钢-连铸动态调度问题的重要性。然后，对深度强化学习算法和近端策略优化

算法的理论和实际应用进行了综述，为本文算法的提出奠定了理论基础。最后，深

入分析炼钢-连铸实际生产过程中的扰动因素，基于实际生产工艺要求，在满足生

产约束的条件下建立了以最小化最大完工时间为优化目标的炼钢-连铸动态调度优

化模型。

（2）基于炼钢-连铸动态调度特性设计了状态空间、动作空间和奖励函数，并

将动态调度问题描述为马尔可夫决策过程。针对炼钢-连铸动态调度中的炉次选择和

设备选择两个子问题，设计了炉次选择规则和设备选择规则的双动作空间解决双重

优化问题。为提高经验利用率，在算法学习过程的探索阶段，根据调度任务的目标

函数值设置经验样本的优先级，通过优先级保留较优经验进行采样，设计了一种融

合优先经验回放机制的训练方法，提出基于优先经验回放的双动作近端策略优化算

法（PER-DAPPO），建立了实时动态调度框架。

（3）PER-DAPPO算法的超参数取值对算法性能影响很大，为提高所提

PER-DAPPO算法性能，对算法所用超参数设计了正交试验。以炼钢-连铸实际生产

数据为依托，采用生产实际数据对所设定的超参数取值进行正交实验，最后采用数

学统计分析的方法确定所提算法的超参数最优设定值。

（4）将所提出的PER-DAPPO算法应用于求解炼钢-连铸动态调度问题中。针

对国内某大型钢厂的生产过程出现的随机插单和设备故障等扰动事件，将所提

PER-DAPPO算法与传统PPO算法应用到具有插单扰动事件的动态调度过程中进行

仿真对比，结果表明本文所提PER-DAPPO算法在稳定性和收敛速度方面具有显著

优势。为进一步验证所提算法的泛化能力，将所提算法与传统PPO算法以及改进

GSA算法在相同炉次规模和不同炉次规模上进行了插单扰动和设备故障扰动的对

比实验，验证了所提PER-DAPPO算法不仅对现场扰动事件实时响应并迅速做出调

度决策，输出高质量的调度结果，而且求解速度更快，泛化性能强。

关键词：炼钢-连铸；动态调度；近端策略优化算法；深度强化学习

（1）Firstly,throughareviewofexistingliterature,analysisthedynamic

schedulingproblemsandmethodsinsteelmaking-continuouscastingisconducted.

Addressingthecurrentissues,elaboratingontheimportanceofoptimizingthedynamic

schedulingprobleminsteelmaking-continuouscasting.Secondly,astudyonthetheory

andpracticalapplicationsofdeepreinforcementlearningalgorithmsandproximalpolicy

optimizationalgorithmswasconducted,layingthetheoretic

您可能关注的文档

文档评论（0）

营销资料库 + 关注: 实名认证

文档贡献者

本账号发布文档部分来源于互联网，仅用于技术分享交流用，版权为原作者所有。 2，文档内容部分来自网络意见，与本账号立场无关。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

改进的PPO算法在炼钢-连铸动态调度中的应用研究.pdfVIP