- 1
- 0
- 约1.88万字
- 约 7页
- 2026-02-27 发布于北京
- 举报
伪标签增强级联框架:LSVOS2025VOS赛道第二次技术报告
112111
AnYanLeileiCaoFengLuRanHongYouhaiJiangFengjieZhu
12
TEXAI,TranssionHoldingsShanghaiTechUniversity
an.yan@,leilei.cao@
Abstract信息。时空对应网络(STCN)[3]通过编码没有掩码
的关键特征并使用L2相似性来提高记忆读取效率。
复杂视频对象分割(VOS)在跨帧准确分割物体方面存XMem[2]进一步引入了基于Atkinson–Shiffrin模型
本在重大挑战,特别是在小且相似的目标、频繁遮挡、快速的多层次内存体系——感觉、工作和长期记忆,这对于
运动和复杂交互的情况下。在这份报告中,我们介绍了长序列特别有效。
译基于SAM2框架的LSVOS2025VOSTrack的解决方Transformer架构[15]也被集成到VOS中以增强
中案。我们在训练过程中采用伪标签策略:在SAM2Long对象级推理。AOT(将对象与Transformer关联)[17]引
1框架内部部署一个已训练好的SAM2检查点来生成入了对象查询,以在帧之间保持一致的身份。Cutie[4]
vMOSE测试集的伪标签,然后将这些标签与现有数据扩展了这一想法,通过显式的对象记忆以及像素级和
1
0结合进行进一步训练。对于推理,我们使用SAM2Long对象级特征之间的双向交互,实现了对遮挡、干扰物和
9
4框架获得主要分割结果,同时开源的秒序群模型并行外观变化的鲁棒性。
1.运行以产生补充预测。级联决策机制动态整合两个模最近,基础分割模型的进步为VOS带来了新的能
9型的输出,利用SAM2Long的时间稳定性以及SeC的力。Meta发布了SegmentAnythingModel(SAM)[11],
0
5概念级别鲁棒性。得益于伪标签训练和级联多模型推这是一个基于提示的基础模型,在大规模的SA-1B数
2理,我们的方法在MOSE测试集上实现了JF得分据集[11]上进行了训练,展示了强大的零样本泛化能
:
v为0.8616—比我们的SAM2Long基线高出+1.4分数力和在扩展到视频数据时的竞争准确性。然而,原始形
i
x—在LSVOS2025VOSTrack中获得第二名,并证明
r式的SAM并未设计用于时间一致性,并且高度依赖于
a了其在长且复杂的视频分割场景中的强大鲁棒性和准低级别的视觉相似性,这使得它在面对剧烈外观变化
确性。和场景转换时不够稳健。
SAM2[14]扩展了这一范式,将其应用于视频对
象分割,并通过引入先进的记忆机制并利用大规模的
1.介绍
SA-V数据集,在多个VOS基准测试中取得了最先进
视频对象分割(VOS)是计算机视觉中的一个基本
您可能关注的文档
- 显式与隐式传记:评估和调整基于 Wikidata 的文本中的 LLM 信息提取.pdf
- 变压器模型在社交机器人检测中的比较分析.pdf
- 计算机辅助设计驱动的飞行准备型喷气动力仿人机器人协同设计.pdf
- 通过反记忆化指导减轻文本到音频生成扩散模型中的数据复制问题.pdf
- 跨模态知识蒸馏在语音大型语言模型中的应用.pdf
- GenKOL: 模块化生成 AI 框架用于可扩展虚拟 KOL 生成.pdf
- 自解释强化学习在 移动网络资源分配中的应用.pdf
- 成本性能分析:基于 CPU 的无服务器和基于 GPU 的训练架构的比较研究.pdf
- 返回耳朵:感知驱动的高保真音乐重构.pdf
- 人工智能与市场新进入者游戏开发者.pdf
原创力文档

文档评论(0)