摘要
摘要
在多媒体内容和视频数据快速发展的时代,用户渴望在海量的长视频中迅速捕捉到
有价值的片段以及快速智能地识别出关键目标。论文将视频摘要生成与目标跟踪技术相结
合,以解决长视频关键目标跟踪任务中由于信息过载导致的处理时间长和关键目标识别效
率低下的问题。
论文的主要工作如下:
(1)针对现有视频摘要模型在处理长视频片段生成视频镜头时缺乏时间信息、多模
态信息融合及特征捕获能力差,导致上下文不连贯和视频摘要生成质量低的问
摘要
摘要
在多媒体内容和视频数据快速发展的时代,用户渴望在海量的长视频中迅速捕捉到
有价值的片段以及快速智能地识别出关键目标。论文将视频摘要生成与目标跟踪技术相结
合,以解决长视频关键目标跟踪任务中由于信息过载导致的处理时间长和关键目标识别效
率低下的问题。
论文的主要工作如下:
(1)针对现有视频摘要模型在处理长视频片段生成视频镜头时缺乏时间信息、多模
态信息融合及特征捕获能力差,导致上下文不连贯和视频摘要生成质量低的问
文档评论(0)