- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号CN120236225A(43)申请公布日2025.07.01
(21)申请号202510256546.1
(22)申请日2025.03.05
(71)申请人山东浪潮智慧建筑科技有限公司地址250100山东省济南市历城区唐冶街
道兴元街1677号6号楼17层
(72)发明人霍璇徐昆李启凯杨宇坤姬克勇
(74)专利代理机构北京君慧知识产权代理事务所(普通合伙)11716
专利代理师董延丽
(51)Int.CI.
GO6V20/40(2022.01)
GO6V20/70(2022.01)
GO6V10/62(2022.01)
G06V10/82(2022.01)
GO6F18/27(2023.01)
GO6F40/30(2020.01)
GO6F18/25(2023.01)
GO6N3/0455(2023.01)
GO6N5/04(2023.01)
权利要求书3页说明书12页附图2页
(54)发明名称
一种基于多模态大模型的视频理解方法、设备及介质
(57)摘要
CN120236225A本申请公开了一种基于多模态大模型的视频理解方法、设备及介质,方法包括:通过动态Alpha混合技术,将预先确定好的第一帧对应的视觉提示信息与视频帧序列进行逐帧融合;从融合后的视频帧序列中提取多帧特征,并整合多帧特征生成对应的时空视觉表示;针对视频帧序列中的每一个当前帧,将当前帧对应前一帧的视觉提示信息与当前帧的视觉特征进行融合,生成视频帧序列中第一帧之后所有帧的视觉提示信息;根据动态Alpha混合系数,对视频帧序列中每两个相邻帧的视觉提示信息进行平滑过渡,以通过自回归语言模型,并结合文本指令与时空视觉表示,
CN120236225A
通过动态
通过动态Alpha混合技术,将预先确定好的第一帧对应的视
觉提示信息与视频帧序列进行逐帧融合101
从融合后的视频帧序列中提取多帧特征,并整合多帧特征生成对应的时空视觉表示
针对视频帧序列中的每一个当前帧,将当前帧对应前一帧的
视觉提示信息与当前帧的视觉特征进行融合,生成视频帧序
列中第一帧之后所有帧的视觉提示信息
根据动态Alpha混合系数,对视频帧序列中每两个相邻帧的
视觉提示信息进行平滑过渡,以通过自回归语言模型,并结
合文本指令与时空视觉表示,生成对应的视频理解结果
103
J04
CN120236225A权利要求书1/3页
2
1.一种基于多模态大模型的视频理解方法,其特征在于,所述方法包括:
通过动态Alpha混合技术,将预先确定好的第一帧对应的视觉提示信息与视频帧序列进行逐帧融合;
从融合后的视频帧序列中提取多帧特征,并整合所述多帧特征生成对应的时空视觉表示;其中,所述时空视觉表示用于反应视频动态变化;
针对所述视频帧序列中的每一个当前帧,将所述当前帧对应前一帧的视觉提示信息与所述当前帧的视觉特征进行融合,生成所述视频帧序列中第一帧之后所有帧的视觉提示信息;其中,每个前一帧的视觉提示信息是根据位于所述前一帧之前的所有帧依次进行融合得到的;
根据动态Alpha混合系数,对所述视频帧序列中每两个相邻帧的视觉提示信息进行平滑过渡,以通过自回归语言模型,并结合文本指令与所述时空视觉表示,生成对应的视频理解结果。
2.根据权利要求1所述的一种基于多模态大模型的视频理解方法,其特征在于,将预先确定好的第一帧对应的视觉提示信息与视频帧序列进行逐帧融合之前,所述方法还包括:
通过以下公式计算所述视频帧序列中当前帧的动态Alpha混合系数:
at=σ(w1g(It,Ip,t;Q)+W?αt-1)
其中,αt表示当前帧的动态Alpha混合系数,o表示归一化函数Sigmoid函数,g(·)表示全连接神经网络,I表示视频帧序列中第t个视频帧,I,t表示第t个视频提示帧,φ表示网络中的可学习参数集,w?表示当前帧的权重系数,w?表示上一帧的权重系数,αt-1表示上一帧的混合系数。
3.根据权利要求1所述的一种基于多模态大模型的视频理解方法
您可能关注的文档
- CN120046432B 一种确定非均质土层边坡双临界滑动面的搜索方法 (南京工业大学).docx
- CN120047115B 一种基于有向无环图的合同事件依赖关系建模方法 (点击律(上海)网络科技有限公司).docx
- CN120047776B 基于Retinex-DCE-YOLOv5s的隧道机电设备识别方法及系统 (浙江省交通运输科学研究院).docx
- CN120055498B 一种基于高熵合金中间层扩散连接异质钛合金的方法 (西北工业大学).docx
- CN120063932B 一种泡沫玻璃加工用多工位检测装置及方法 (江苏德和绝热科技有限公司).docx
- CN120064472B 基于声发射信号频域迁移的输送带隐性损伤识别方法 (衡阳腾飞机械有限公司).docx
- CN120065754B 一种基于观测的自适应对数终端滑模控制方法和装置 (西北工业大学).docx
- CN120065760B 基于多点传感的液相色谱流速实时检测与优化控制方法 (上海衡领医药科技有限公司).docx
- CN120068313B 基于应力分析的航空紧固件寿命预测方法及系统 (成都迈特航空制造有限公司).docx
- CN120068846B 语言任务处理方法、系统、设备、存储介质及程序产品 (山东海量信息技术研究院).docx
- CN120236245A 一种基于多传感器融合的农作物生长监测方法及系统 (中国农业科学院农业资源与农业区划研究所).docx
- CN120236249A 一种多模态协同感知的电站高风险作业巡检方法及系统 (国能信控技术股份有限公司).docx
- CN120236273A 一种面向三维高斯场景的轻量型实时语义分割方法 (南开大学深圳研究院).docx
- CN120236297A 单据信息录入方法、设备和存储介质 (广州平云小匠科技股份有限公司).docx
- CN120236410A 基于空地协同无人巡检的公路灾害检测方法及系统 (中铁西南科学研究院有限公司).docx
- CN120236599A 一种混合语音处理的方法、电子设备、计算机可读介质 (肇庆学院).docx
- CN120236609A 一种基于语音和语义识别的用户心理状态监测方法及系统 (金华高等研究院(金华理工学院筹建工作领导小组办公室)).docx
- CN120236639A 固态硬盘性能波动测试方法、装置、设备及存储介质 (苏州元脑智能科技有限公司).docx
- CN120236814A 一种智能防火中压电缆及其制备方法 (广东珠江电线电缆有限公司).docx
- CN120237126A 芯片贴装装置以及半导体器件的制造方法 (捷进科技有限公司).docx
原创力文档


文档评论(0)