伪标签增强级联框架：LSVOS 2025 VOS 赛道第二次技术报告.pdfVIP

伪标签增强级联框架：LSVOS 2025 VOS 赛道第二次技术报告.pdf

伪标签增强级联框架：LSVOS2025VOS赛道第二次技术报告

112111

AnYanLeileiCaoFengLuRanHongYouhaiJiangFengjieZhu

TEXAI,TranssionHoldingsShanghaiTechUniversity

an.yan@,leilei.cao@

Abstract信息。时空对应网络（STCN）[3]通过编码没有掩码

的关键特征并使用L2相似性来提高记忆读取效率。

复杂视频对象分割（VOS）在跨帧准确分割物体方面存XMem[2]进一步引入了基于Atkinson–Shiffrin模型

本在重大挑战，特别是在小且相似的目标、频繁遮挡、快速的多层次内存体系——感觉、工作和长期记忆，这对于

运动和复杂交互的情况下。在这份报告中，我们介绍了长序列特别有效。

译基于SAM2框架的LSVOS2025VOSTrack的解决方Transformer架构[15]也被集成到VOS中以增强

中案。我们在训练过程中采用伪标签策略：在SAM2Long对象级推理。AOT（将对象与Transformer关联）[17]引

1框架内部部署一个已训练好的SAM2检查点来生成入了对象查询，以在帧之间保持一致的身份。Cutie[4]

vMOSE测试集的伪标签，然后将这些标签与现有数据扩展了这一想法，通过显式的对象记忆以及像素级和

0结合进行进一步训练。对于推理，我们使用SAM2Long对象级特征之间的双向交互，实现了对遮挡、干扰物和

4框架获得主要分割结果，同时开源的秒序群模型并行外观变化的鲁棒性。

1.运行以产生补充预测。级联决策机制动态整合两个模最近，基础分割模型的进步为VOS带来了新的能

9型的输出，利用SAM2Long的时间稳定性以及SeC的力。Meta发布了SegmentAnythingModel（SAM）[11],

5概念级别鲁棒性。得益于伪标签训练和级联多模型推这是一个基于提示的基础模型，在大规模的SA-1B数

2理，我们的方法在MOSE测试集上实现了JF得分据集[11]上进行了训练，展示了强大的零样本泛化能

v为0.8616—比我们的SAM2Long基线高出+1.4分数力和在扩展到视频数据时的竞争准确性。然而，原始形

x—在LSVOS2025VOSTrack中获得第二名，并证明

r式的SAM并未设计用于时间一致性，并且高度依赖于

a了其在长且复杂的视频分割场景中的强大鲁棒性和准低级别的视觉相似性，这使得它在面对剧烈外观变化

确性。和场景转换时不够稳健。

SAM2[14]扩展了这一范式，将其应用于视频对

象分割，并通过引入先进的记忆机制并利用大规模的

1.介绍

SA-V数据集，在多个VOS基准测试中取得了最先进

视频对象分割（VOS）是计算机视觉中的一个基本

更多 >