CN120236225A 一种基于多模态大模型的视频理解方法、设备及介质（山东浪潮智慧建筑科技有限公司）.docxVIP

下载本文档

1
0
约2.16万字
约 31页
2026-01-12 发布于重庆
举报
版权申诉

CN120236225A 一种基于多模态大模型的视频理解方法、设备及介质（山东浪潮智慧建筑科技有限公司）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN120236225A(43)申请公布日2025.07.01

(21)申请号202510256546.1

(22)申请日2025.03.05

(71)申请人山东浪潮智慧建筑科技有限公司地址250100山东省济南市历城区唐冶街

道兴元街1677号6号楼17层

(72)发明人霍璇徐昆李启凯杨宇坤姬克勇

(74)专利代理机构北京君慧知识产权代理事务所(普通合伙)11716

专利代理师董延丽

(51)Int.CI.

GO6V20/40(2022.01)

GO6V20/70(2022.01)

GO6V10/62(2022.01)

G06V10/82(2022.01)

GO6F18/27(2023.01)

GO6F40/30(2020.01)

GO6F18/25(2023.01)

GO6N3/0455(2023.01)

GO6N5/04(2023.01)

权利要求书3页说明书12页附图2页

(54)发明名称

一种基于多模态大模型的视频理解方法、设备及介质

(57)摘要

CN120236225A本申请公开了一种基于多模态大模型的视频理解方法、设备及介质，方法包括：通过动态Alpha混合技术，将预先确定好的第一帧对应的视觉提示信息与视频帧序列进行逐帧融合；从融合后的视频帧序列中提取多帧特征，并整合多帧特征生成对应的时空视觉表示；针对视频帧序列中的每一个当前帧，将当前帧对应前一帧的视觉提示信息与当前帧的视觉特征进行融合，生成视频帧序列中第一帧之后所有帧的视觉提示信息；根据动态Alpha混合系数，对视频帧序列中每两个相邻帧的视觉提示信息进行平滑过渡，以通过自回归语言模型，并结合文本指令与时空视觉表示，

CN120236225A

通过动态

通过动态Alpha混合技术，将预先确定好的第一帧对应的视

觉提示信息与视频帧序列进行逐帧融合101

从融合后的视频帧序列中提取多帧特征，并整合多帧特征生成对应的时空视觉表示

针对视频帧序列中的每一个当前帧，将当前帧对应前一帧的

视觉提示信息与当前帧的视觉特征进行融合，生成视频帧序

列中第一帧之后所有帧的视觉提示信息

根据动态Alpha混合系数，对视频帧序列中每两个相邻帧的

视觉提示信息进行平滑过渡，以通过自回归语言模型，并结

合文本指令与时空视觉表示，生成对应的视频理解结果

103

J04

CN120236225A权利要求书1/3页

1.一种基于多模态大模型的视频理解方法，其特征在于，所述方法包括：

通过动态Alpha混合技术，将预先确定好的第一帧对应的视觉提示信息与视频帧序列进行逐帧融合；

从融合后的视频帧序列中提取多帧特征，并整合所述多帧特征生成对应的时空视觉表示；其中，所述时空视觉表示用于反应视频动态变化；

针对所述视频帧序列中的每一个当前帧，将所述当前帧对应前一帧的视觉提示信息与所述当前帧的视觉特征进行融合，生成所述视频帧序列中第一帧之后所有帧的视觉提示信息；其中，每个前一帧的视觉提示信息是根据位于所述前一帧之前的所有帧依次进行融合得到的；

根据动态Alpha混合系数，对所述视频帧序列中每两个相邻帧的视觉提示信息进行平滑过渡，以通过自回归语言模型，并结合文本指令与所述时空视觉表示，生成对应的视频理解结果。

2.根据权利要求1所述的一种基于多模态大模型的视频理解方法，其特征在于，将预先确定好的第一帧对应的视觉提示信息与视频帧序列进行逐帧融合之前，所述方法还包括：

通过以下公式计算所述视频帧序列中当前帧的动态Alpha混合系数：

at=σ(w1g(It,Ip,t;Q)+W?αt-1)

其中，αt表示当前帧的动态Alpha混合系数，o表示归一化函数Sigmoid函数，g(·)表示全连接神经网络，I表示视频帧序列中第t个视频帧，I,t表示第t个视频提示帧，φ表示网络中的可学习参数集，w?表示当前帧的权重系数，w?表示上一帧的权重系数，αt-1表示上一帧的混合系数。

3.根据权利要求1所述的一种基于多模态大模型的视频理解方法

您可能关注的文档

文档评论（0）

aabbcc + 关注: 实名认证

文档贡献者

若下载文档格式有问题，请咨询qq1643702686索取原版

咨询Ta 进入空间

1亿VIP精品文档

更多 >

CN120236225A 一种基于多模态大模型的视频理解方法、设备及介质（山东浪潮智慧建筑科技有限公司）.docxVIP