- 0
- 0
- 约2.16万字
- 约 31页
- 2026-01-20 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN119863745B(45)授权公告日2025.07.11
(21)申请号202510355760.2
(22)申请日2025.03.25
(65)同一申请的已公布的文献号申请公布号CN119863745A
(43)申请公布日2025.04.22
(73)专利权人南京信息工程大学
地址211806江苏省南京市浦口区双峰路
69号
(72)发明人周媛华立涛
(74)专利代理机构江苏圣典律师事务所32237专利代理师吴庭祥于瀚文
(51)Int.CI.
GO6V20/40(2022.01)
GO6V10/40(2022.01)
GO6V10/82(2022.01)
GO6N3/0499(2023.01)
GO6N3/08(2023.01)
(56)对比文件
CN119202149A,2024.12.27
YangyangXu等.Leveragingspatial
residualattentionandtemporalMarkovnetworksforvideoactionunderstanding.《NeuralNetworks》.2023,第1-10页.
审查员周三章
权利要求书3页说明书11页附图2页
(54)发明名称
一种基于大语言模型的动态迭代式长视频理解方法
(57)摘要
CN119863745B本发明提供了一种基于大语言模型的动态迭代式长视频理解方法,步骤1,对视频理解任务进行数学建模与分析;步骤2,对用户输入的视频进行预处理,通过问答Agent进行初步推理;步骤3,进行自监督信息反馈,在推理过程中的每一步都引入评判Agent对答案进行认知;步骤4,采用问答准确率、平均检索帧数作为评价指标进行定量分析,验证方法的有效性;采用用户提供的任一视频和问题进行定性分析,验证结果是否符合预期。该方法通过模拟人类逻辑思维链的动态优化过程,实现了视频内容的智能分析与推理。本发明广泛应用于视频智能分析、视频问答系统、
CN119863745B
用户输入问题和选项
用户输入问题和选项用户输入视频
视频帧采样
特征
生成文本描述
补充
获取初始帧和描述
问答Agent
评判Agent
知自适应皮减值
判断答案一致性和正确性反馈预测答案可能出现的区间和描述
计算相似度
输出
CN119863745B权利要求书1/3页
2
1.一种基于大语言模型的动态迭代式长视频理解方法,其特征在于,包括以下步骤:
步骤1,基于自监督的动态迭代思维链,对视频理解任务进行数学建模与分析;
步骤2,对用户输入的视频进行预处理,对视频进行帧采样,为每个视频帧生成文本描述并提取视频帧的视觉特征;通过问答Agent进行初步推理,结合输入的文本和视频帧生成初步答案;采用认知自适应度评估机制对答案进行评估,如果认知自适应度满足要求则输出答案,否则进入步骤3;
步骤3,进行自监督信息反馈,在推理过程中的每一步都引入评判Agent对答案进行认知,评判Agent通过检测答案一致性与准确性判断,协助确认答案是否存在歧义或需要进一步补充细节;问答Agent将根据反馈结果进行关键帧检索和信息补充,迭代更新已知信息后返回步骤2,进行下一轮推理,直到认知自适应度达到预设标准;
步骤4,进行结果评估:采用问答准确率、平均检索帧数作为评价指标在开源数据集上进行定量分析,验证方法的有效性;其次,采用用户提供的任一视频和问题进行定性分析,验证结果是否符合预期;
步骤1中,所述对视频理解任务进行数学建模与分析,包括:将视频理解过程建模为一个马尔可夫过程,其中每个时刻的状态对应推理过程中的一个阶段,t时刻的状态S包括视频帧的视觉特征V和文本描述T,表示为:
St={V,T},
每轮推理,会根据当前状态S生成下一时刻答案A+1,再通过已有答案继续寻找关键信息,设P(At+1IS)表示在状态S的条件下,生成下一时刻答案A+1的概率,St+1表示t+1时刻的状态,则下一时刻状态转移过程表示为:
P(At+1IS)=P(At+1IVt,T),
St+1=π(S,At+1),
其中π表示状态转
您可能关注的文档
- CN115240578B 命令模式与视频模式间无缝切换的方法和装置及显示装置 (美格纳智芯混合信号有限公司).docx
- CN115271161B 一种多能负荷短期预测方法 (华南理工大学).docx
- CN115309195B 一种光伏跟踪轴的控制方法、装置及光伏跟踪系统 (仁卓智能科技有限公司).docx
- CN115309814B 基于结构化低秩张量补全的物联网数据重建方法 (河北工业大学).docx
- CN115310378B 一种极端台风灾害下电网韧性评估及差异化规划方法 (武汉大学).docx
- CN115330663B 眼前节oct图像中巩膜镜和泪液镜边界分割方法 (温州医科大学).docx
- CN115344041B 一种自移动装置的控制方法、自移动装置及自移动设备 (科沃斯机器人股份有限公司).docx
- CN115346463B 一种图像显示方法及装置 (北京奕斯伟计算技术股份有限公司).docx
- CN115408860B 一种风电场风速-功率数据的异常值监测及修正方法 (河北工业大学).docx
- CN115455382B 一种二进制函数代码的语义比对方法及装置 (武汉大学).docx
- 25-26学年政治(部编版)选择性必修第二册课件:第1单元 周清1 民法中的人身权及财产权.pptx
- 25-26学年政治(部编版)选择性必修第二册课件:1.4.1 权利保障 于法有据.pptx
- 2025北京丰台区高二(上)期中地理(A卷)含答案.docx
- 2025北京三帆中学初三(上)开学考英语试题含答案.docx
- 2025北京一零一中初三9月月考语文试题含答案.docx
- 2025北京海淀区初三(上)期中道法试题含答案.docx
- 2025北京丰台区高一(上)期中政治(A卷)含答案.docx
- 25-26学年政治统编版必修4课件:3.3 唯物辩证法的实质与核心.pptx
- 25-26学年政治统编版必修4课件:7.2 正确认识中华传统文化.pptx
- 湖北省部分高中2026届高三上学期二模联考 历史试卷.docx
最近下载
- 部编版道德与法治一年级下册第8课《大家来合作》精美课件.pptx VIP
- 银行国际业务基础知识.pdf VIP
- 《恒压频比控制下交流异步电机调速系统仿真》.docx VIP
- 矿山生态保护修复验收规范.pdf VIP
- 浙江省杭州市西湖区2024-2025学年九年级上学期数学期末试卷(含答案).docx VIP
- 山东省济南市历城区2023-2024学年五年级上学期期末数学试卷(含答案).docx VIP
- 城市景观规划设计外文文献翻译 .pdf VIP
- PEP人教版小学英语三年级上册期末测试卷(一)(答案+听力材料).doc VIP
- 小升初英语试卷及答案.pdf VIP
- 安全知识 培训.docx VIP
原创力文档

文档评论(0)