CN119863745B 一种基于大语言模型的动态迭代式长视频理解方法 (南京信息工程大学).docxVIP

  • 0
  • 0
  • 约2.16万字
  • 约 31页
  • 2026-01-20 发布于重庆
  • 举报

CN119863745B 一种基于大语言模型的动态迭代式长视频理解方法 (南京信息工程大学).docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN119863745B(45)授权公告日2025.07.11

(21)申请号202510355760.2

(22)申请日2025.03.25

(65)同一申请的已公布的文献号申请公布号CN119863745A

(43)申请公布日2025.04.22

(73)专利权人南京信息工程大学

地址211806江苏省南京市浦口区双峰路

69号

(72)发明人周媛华立涛

(74)专利代理机构江苏圣典律师事务所32237专利代理师吴庭祥于瀚文

(51)Int.CI.

GO6V20/40(2022.01)

GO6V10/40(2022.01)

GO6V10/82(2022.01)

GO6N3/0499(2023.01)

GO6N3/08(2023.01)

(56)对比文件

CN119202149A,2024.12.27

YangyangXu等.Leveragingspatial

residualattentionandtemporalMarkovnetworksforvideoactionunderstanding.《NeuralNetworks》.2023,第1-10页.

审查员周三章

权利要求书3页说明书11页附图2页

(54)发明名称

一种基于大语言模型的动态迭代式长视频理解方法

(57)摘要

CN119863745B本发明提供了一种基于大语言模型的动态迭代式长视频理解方法,步骤1,对视频理解任务进行数学建模与分析;步骤2,对用户输入的视频进行预处理,通过问答Agent进行初步推理;步骤3,进行自监督信息反馈,在推理过程中的每一步都引入评判Agent对答案进行认知;步骤4,采用问答准确率、平均检索帧数作为评价指标进行定量分析,验证方法的有效性;采用用户提供的任一视频和问题进行定性分析,验证结果是否符合预期。该方法通过模拟人类逻辑思维链的动态优化过程,实现了视频内容的智能分析与推理。本发明广泛应用于视频智能分析、视频问答系统、

CN119863745B

用户输入问题和选项

用户输入问题和选项用户输入视频

视频帧采样

特征

生成文本描述

补充

获取初始帧和描述

问答Agent

评判Agent

知自适应皮减值

判断答案一致性和正确性反馈预测答案可能出现的区间和描述

计算相似度

输出

CN119863745B权利要求书1/3页

2

1.一种基于大语言模型的动态迭代式长视频理解方法,其特征在于,包括以下步骤:

步骤1,基于自监督的动态迭代思维链,对视频理解任务进行数学建模与分析;

步骤2,对用户输入的视频进行预处理,对视频进行帧采样,为每个视频帧生成文本描述并提取视频帧的视觉特征;通过问答Agent进行初步推理,结合输入的文本和视频帧生成初步答案;采用认知自适应度评估机制对答案进行评估,如果认知自适应度满足要求则输出答案,否则进入步骤3;

步骤3,进行自监督信息反馈,在推理过程中的每一步都引入评判Agent对答案进行认知,评判Agent通过检测答案一致性与准确性判断,协助确认答案是否存在歧义或需要进一步补充细节;问答Agent将根据反馈结果进行关键帧检索和信息补充,迭代更新已知信息后返回步骤2,进行下一轮推理,直到认知自适应度达到预设标准;

步骤4,进行结果评估:采用问答准确率、平均检索帧数作为评价指标在开源数据集上进行定量分析,验证方法的有效性;其次,采用用户提供的任一视频和问题进行定性分析,验证结果是否符合预期;

步骤1中,所述对视频理解任务进行数学建模与分析,包括:将视频理解过程建模为一个马尔可夫过程,其中每个时刻的状态对应推理过程中的一个阶段,t时刻的状态S包括视频帧的视觉特征V和文本描述T,表示为:

St={V,T},

每轮推理,会根据当前状态S生成下一时刻答案A+1,再通过已有答案继续寻找关键信息,设P(At+1IS)表示在状态S的条件下,生成下一时刻答案A+1的概率,St+1表示t+1时刻的状态,则下一时刻状态转移过程表示为:

P(At+1IS)=P(At+1IVt,T),

St+1=π(S,At+1),

其中π表示状态转

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档