- 0
- 0
- 约1.13万字
- 约 10页
- 2023-07-06 发布于四川
- 举报
本发明公开了一种基于Transformer的视频片段分割方法,其特征在于,对视频的画面和语音采样获得采样图片和采样语音,将采样图片与采样语音对应并标注分割标签;输入卷积神经网络,提取采样图片的卷积特征和采样语音的MFCC特征,对两者进行拼接并融合位置特征,获得相应的序列,输入transformer模型进行训练;使用模型,得到目标视频的切割预测标签,根据切割预测标签对目标视频进行切分。本发明充分利用transformer模型结构对长序列建模的优势,将视频片段分割转化为序列标注问题,进一步将视频通过
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 113837083 A
(43)申请公布日 2021.12.24
(21)申请号 202111120509.6
(22)申请日 2021.09.24
(71)申请人 焦点科技股份有限公司
原创力文档

文档评论(0)