CN119863745B 一种基于大语言模型的动态迭代式长视频理解方法（南京信息工程大学）.docxVIP

下载本文档

0
0
约2.16万字
约 31页
2026-01-20 发布于重庆
举报

CN119863745B 一种基于大语言模型的动态迭代式长视频理解方法（南京信息工程大学）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN119863745B(45)授权公告日2025.07.11

(21)申请号202510355760.2

(22)申请日2025.03.25

(65)同一申请的已公布的文献号申请公布号CN119863745A

(43)申请公布日2025.04.22

(73)专利权人南京信息工程大学

地址211806江苏省南京市浦口区双峰路

69号

(72)发明人周媛华立涛

(74)专利代理机构江苏圣典律师事务所32237专利代理师吴庭祥于瀚文

(51)Int.CI.

GO6V20/40(2022.01)

GO6V10/40(2022.01)

GO6V10/82(2022.01)

GO6N3/0499(2023.01)

GO6N3/08(2023.01)

(56)对比文件

CN119202149A,2024.12.27

YangyangXu等.Leveragingspatial

residualattentionandtemporalMarkovnetworksforvideoactionunderstanding.《NeuralNetworks》.2023,第1-10页.

审查员周三章

权利要求书3页说明书11页附图2页

(54)发明名称

一种基于大语言模型的动态迭代式长视频理解方法

(57)摘要

CN119863745B本发明提供了一种基于大语言模型的动态迭代式长视频理解方法，步骤1,对视频理解任务进行数学建模与分析；步骤2,对用户输入的视频进行预处理，通过问答Agent进行初步推理；步骤3,进行自监督信息反馈，在推理过程中的每一步都引入评判Agent对答案进行认知；步骤4,采用问答准确率、平均检索帧数作为评价指标进行定量分析，验证方法的有效性；采用用户提供的任一视频和问题进行定性分析，验证结果是否符合预期。该方法通过模拟人类逻辑思维链的动态优化过程，实现了视频内容的智能分析与推理。本发明广泛应用于视频智能分析、视频问答系统、

CN119863745B

用户输入问题和选项

用户输入问题和选项用户输入视频

视频帧采样

特征

生成文本描述

补充

获取初始帧和描述

问答Agent

评判Agent

知自适应皮减值

判断答案一致性和正确性反馈预测答案可能出现的区间和描述

计算相似度

输出

CN119863745B权利要求书1/3页

1.一种基于大语言模型的动态迭代式长视频理解方法，其特征在于，包括以下步骤：

步骤1,基于自监督的动态迭代思维链，对视频理解任务进行数学建模与分析；

步骤2,对用户输入的视频进行预处理，对视频进行帧采样，为每个视频帧生成文本描述并提取视频帧的视觉特征；通过问答Agent进行初步推理，结合输入的文本和视频帧生成初步答案；采用认知自适应度评估机制对答案进行评估，如果认知自适应度满足要求则输出答案，否则进入步骤3;

步骤3,进行自监督信息反馈，在推理过程中的每一步都引入评判Agent对答案进行认知，评判Agent通过检测答案一致性与准确性判断，协助确认答案是否存在歧义或需要进一步补充细节；问答Agent将根据反馈结果进行关键帧检索和信息补充，迭代更新已知信息后返回步骤2,进行下一轮推理，直到认知自适应度达到预设标准；

步骤4,进行结果评估：采用问答准确率、平均检索帧数作为评价指标在开源数据集上进行定量分析，验证方法的有效性；其次，采用用户提供的任一视频和问题进行定性分析，验证结果是否符合预期；

步骤1中，所述对视频理解任务进行数学建模与分析，包括：将视频理解过程建模为一个马尔可夫过程，其中每个时刻的状态对应推理过程中的一个阶段，t时刻的状态S包括视频帧的视觉特征V和文本描述T,表示为：

St={V,T},

每轮推理，会根据当前状态S生成下一时刻答案A+1,再通过已有答案继续寻找关键信息，设P(At+1IS)表示在状态S的条件下，生成下一时刻答案A+1的概率，St+1表示t+1时刻的状态，则下一时刻状态转移过程表示为：

P(At+1IS)=P(At+1IVt,T),

St+1=π(S,At+1),

其中π表示状态转

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN119863745B 一种基于大语言模型的动态迭代式长视频理解方法（南京信息工程大学）.docxVIP