CN118155017A 基于大模型提示的视频对象分割数据集制作方法及系统（浙江大学）.pdfVIP

下载本文档

2
0
约1.56万字
约 11页
2026-01-29 发布于重庆
举报

CN118155017A 基于大模型提示的视频对象分割数据集制作方法及系统（浙江大学）.pdf

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN118155017A

(43)申请公布日2024.06.07

(21)申请号202410306970.8G06V10/80(2022.01)

G06N3/08(2023.01)

(22)申请日2024.03.18

G06N3/084(2023.01)

(71)申请人浙江大学

G06N3/045(2023.01)

地址310058浙江省杭州市西湖区余杭塘

路866号

(72)发明人肖俊蒋焘王朝

(74)专利代理机构杭州求是专利事务所有限公

司33200

专利代理师傅朝栋张法高

(51)Int.Cl.

G06V10/774(2022.01)

G06V20/40(2022.01)

G06V10/82(2022.01)

G06V10/26(2022.01)

G06V10/40(2022.01)

权利要求书2页说明书7页附图1页

(54)发明名称

基于大模型提示的视频对象分割数据集制

作方法及系统

(57)摘要

本发明公开了一种基于大模型提示的视频

对象分割数据集制作方法及系统，主要针对目前

大规模视频像素级掩码标注数据缺乏的现象，本

发明的方法通过大模型以及位置编码等方式，对

常见的提示信息(文本、图像、点、框等)进行编

码，再构建基于提示的多帧时序交互分割模型接

收提示信息以及交互帧图像信息，输出交互帧的

掩码，最后借助半监督实例跟踪模型对交互帧的

预测结果进行时序传播，获取整个视频的掩码。

本发明有着输入多样，交互简便的特点，可以便

捷的大规模制作视频像素级标注信息，为各个工

A业场景提供可靠的大规模视频标注数据。

CN118155017A权利要求书1/2页

1.一种基于大模型提示的视频对象分割数据集制作方法，其特征在于，包括以下步骤：

S1.获取待分割的视频对象以及所述视频对象的第t帧待分割图像，所述第t帧待分割

图像对应若干个图像实例，每个图像实例对应一个文本提示；

S2.获取一个经过训练的文本编码大模型，利用所述文本编码大模型对每个文本提示

进行编码，每个文本提示对应得到一个文本提示特征；获取一个经过训练的图像编码大模

型，利用所述图像编码大模型对第t帧待分割图像进行编码，第t帧待分割图像对应得到一

个图像提示特征；获取一个经过训练的位置编码器，将第t帧待分割图像以及第t帧待分割

图像的提示点输入到所述位置编码器中，得到每个提示点对应的提示点特征，将第t帧待分

割图像以及第t帧待分割图像的提示框输入到所述位置编码器中，得到每个提示框对应的

提示框特征；

S3.获取一个经过训练的基于提示的多帧时序交互分割模型，所述多帧时序交互分割

模型包括一个图像特征提取器和一个时序交互模块，所述图像特征提取器包含一个编码器

和一个解码器，所述时序交互模块由一个自注意力层和一个跨帧注意力层依次级联而成；

将第t帧待分割图像输入到所述编码器中，第t帧待分割图像对应得到一个初始图像特征；

将所述初始图像特征、所述文本提示特征、所述图像提示特征、所述提示点特征和所述提示

CN118155017A 基于大模型提示的视频对象分割数据集制作方法及系统（浙江大学）.pdfVIP