基于深度强化学习的作业车间调度算法研究.pdfVIP

下载本文档

1
0
约14.25万字
约 77页
2026-02-11 发布于江西
举报

基于深度强化学习的作业车间调度算法研究.pdf

摘要

随着工业4.0和智能制造趋势的不断深化，制造业正面临着从传统制造管理方式

向智能生产的转型。作业车间调度作为制造执行管理与过程控制管理的核心问题之一，

同时也是组合优化领域中的典型NP-hard难题，在理论探索与智能制造领域具有重要

的研究价值。鉴于作业车间调度问题的复杂性和其变体问题的广泛性，如何在保证解

决方案质量的同时提升求解效率，以及增强求解方法的通用性，已成为工业界和学术

界共同关注的焦点和长期研究的课题。

近年来，基于机器学习的近似算法显示出显著的应用前景，这些算法能够通过自

主学习来发现更优的解决方案。然而，在状态设置、求解时间、可扩展性等方面，这

些方法普遍存在局限性，且往往依赖于专家知识。鉴于现有研究成果在应用于作业车

间调度问题时遭遇的诸多挑战，本文聚焦于探索基于深度强化学习的创新方法，旨在

有效优化传统作业车间调度及其扩展形式——柔性作业车间调度问题。通过探索新的

状态表示技术和算法框架，期望能够有效提升调度方案的质量和效率，从而为作业车

间调度问题的优化提供新的解决思路和实践依据。本文主要研究内容如下：

（1）针对作业车间调度问题，构建了一种基于近端策略优化算法和卷积神经网

络的深度强化学习调度方法。设计了一种三通道状态表示方法，选取16种启发式调

度规则作为动作空间，并将奖励函数设置为最小化机器总空闲时间，以提升调度策略

的效率和准确性。为了使训练得到的调度策略能够适应不同规模的调度算例，在卷积

神经网络中引入了空间金字塔池化技术，将不同维度的特征矩阵转换为固定长度的特

征向量，从而增强了模型的泛化能力。在实验部分，对公开的OR-Library中的42个

作业车间调度算例进行了计算测试。仿真实验结果表明，该算法在绝大多数情况下优

于单一启发式调度规则和遗传算法，并在许多算例中取得了比现有深度强化学习算法

更优的表现，展现出了最小的平均完工时间。

（2）针对柔性作业车间调度在传统作业车间调度问题基础上增加了机器选择的

特性，开发了一种基于注意力机制的深度强化学习框架。设计了七个特征向量来表示

调度环境的状态特征，并采用Transformer编码器作为特征提取模块，有效捕捉不同

状态信息之间的关系，提升特征的表征能力。基于工件和机器的状态特征，从工件完

成率、处理时间、等待时间和制造资源利用率等多个维度设计了14条复合调度规则，

实现了灵活且高效的调度决策。此外，以最小化机器总空闲时间为调度目标，设计了

一种直观的奖励函数，以促进调度策略的优化。最后，为了验证所提出算法的性能和

可行性，在Brandmarte、Hurink和Dauzere数据集上对策略模型进行了评估。实验结

果显示，该框架在稳定性和效果上明显优于传统调度规则，在大规模算例上超越了遗

传算法、粒子群算法等元启发式方法，并且在大部分数据集上超过了现有的深度强化

学习调度方法。这表明，该深度强化学习框架在作业车间调度问题中具有良好的应用

前景和实际价值。

关键词：作业车间调度问题；柔性作业车间调度；深度强化学习；近端策略优化；卷

积神经网络；空间金字塔池化；Transformer；调度规则

万方数据

Abstract

WiththecontinuousadvancementofIndustry4.0andsmartmanufacturing,the

manufacturingsectorisundergoingatransformationfromtraditionalproduction

managementmethodstointelligentproduction.Jobshopscheduling,asoneofthecore

issuesinmanufacturingexecutionmanagementandprocesscontrolmanagement,isalsoa

classicNP-hardprobleminthefieldofcombinatorialoptimization.

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于深度强化学习的作业车间调度算法研究.pdfVIP