POMO+：利用 POMO 中的起始节点解决容量车辆路径问题.pdfVIP

POMO+：利用 POMO 中的起始节点解决容量车辆路径问题.pdf

POMO+：利用POMO中的起始节点解决

容量车辆路径问题

SzymonJakubiczKarolKuniak

UniversityofWarsaw,PolandUniversityofWarsaw,Poland

s.jakubicz@.plkm.kuzniak@.pl

JanWawszczakPaweGora

UniversityofWarsaw,PolandFundacjaQuantumAI

janekw23@pawel.gora@

Abstract操作约束产生了一类丰富的问题。最近的

一项调查列出了超过五十种VRP变体(Vidal

近年来，强化学习（RL）方法已成为解决

etal.,2020)。带容量限制的VRP（CVRP）——

本组合问题的一种有前景的方法。在基于RL其中每辆车都有有限的容量——是最受研究和

译的模型中，POMO在各种任务上展示了强最常部署的变体之一，因此我们将重点放在它

中大的性能，包括车辆路径问题（VRP）的变上面。

体。然而，这些任务仍有改进的空间。在这

1项工作中，我们改进了POMO，创建了一在过去几年里，机器学习（ML）特别是

3种方法(POMO+)，该方法利用初始节点以强化学习（RL），已经作为手工启发式算法的

更智能的方式找到解决方案。我们在新模

4一种严肃替代方案出现。用RL训练的基于注

8型上进行了实验，并观察到我们的解决方

0意力的策略已经在100节点实例上匹配了专

.案收敛更快并取得了更好的结果。我们在

8业求解器，同时提供了数量级更快的推理速

0CVRPLIB数据集上验证了我们的模型，并

5注意到在多达100个客户的问题实例中有度。基于AttentionModel(Kooletal.,2019)和

:所改进。我们希望本项目的研究能为该领POMO(Kwonetal.,2020)的模型现在为神经

i域的进一步发展做出贡献。VRP启发式算法设定了标准。

r受这些进展的指导，我们的工作回顾了最

a1介绍

先进的RL求解器，选择了最有前景的一个进

车辆路径问题（VRP）是旅行商问题（TSP）行改进（POMO），并通过一个轻量级辅助代理

的扩展，它寻求满足客户要求的同时使车队从增强了它，该代理学习选择最佳起始节点，这

仓库出发并返回仓库的一系列路线的成本最是原始模型作者提出的开放性建议。我们称这