- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN119809954B(45)授权公告日2025.07.08
(21)申请号202510298599.X
(22)申请日2025.03.13
(65)同一申请的已公布的文献号申请公布号CN119809954A
(43)申请公布日2025.04.11
(73)专利权人佛山大学
地址528225广东省佛山市南海区狮山镇
广云路33号
GO6F40/16(2020.01)
GO6N3/0464(2023.01)
GO6N3/048(2023.01)GO6T5/60(2024.01)
(56)对比文件
CN118918428A,2024.11.08CN119206697A,2024.12.27审查员安健苗
(72)发明人李小松黎熹来李浩宇黄庄钒陈璁谭海曙
(74)专利代理机构广东海融科创知识产权代理事务所(普通合伙)44377
专利代理师许家裕
(51)Int.CI.
GO6T5/50(2006.01)权利要求书4页说明书15页附图11页
(54)发明名称
基于全局和局部文本感知的多模态图像融合方法和模型
(57)摘要
CN119809954B本申请属于图像处理技术领域,公开了一种基于全局和局部文本感知的多模态图像融合方法和模型,通过结合CLIP和BLIP两种视觉语言模型,分别处理图像的全局和局部信息,实现了对复杂场景和恶劣天气条件下图像的有效融合。全局文本感知模块利用CLIP特征增强了模型对整体场景的理解,而局部文本感知模块则利用BLIP特征提高了对局部细节的处理能力。这种双重文本感知机制使得模型能够更全面地利用视觉语言模型的优势,避免了仅依赖简单文本提示或过分强调局部细节的问题。能够充分利用视觉语言模型的优势,同时兼顾全局和局部信息处理,提
CN119809954B
输入层
输入层
01
全局文本感知模块CLIP图像编码器
特征提取网络
03
解码器
输出层
BLIP文本编码器
CLIP文本编码器
02
CN119809954B权利要求书1/4页
2
1.一种基于全局和局部文本感知的多模态图像融合模型,其特征在于,包括:
输入层(1)、全局文本感知模块(2)、CLIP图像编码器(3)、CLIP文本编码器(4)、BLIP文本编码器(5)、特征提取网络(6)、解码器(7)和输出层(8);
所述输入层(1)用于输入源图像并把所述源图像分别输入所述全局文本感知模块(2)、所述CLIP图像编码器(3)、所述CLIP文本编码器(4)和所述BLIP文本编码器(5);所述源图像包括相互配准的红外源图像和可见光源图像;
所述CLIP图像编码器(3)用于生成所述源图像的CLIP图像特征并分别输入所述全局文本感知模块(2)和所述特征提取网络(6);所述CLIP文本编码器(4)用于生成所述源图像的CLIP文本特征并输入所述全局文本感知模块(2);所述BLIP文本编码器(5)用于生成所述源图像的BLIP文本特征并输入所述特征提取网络(6);
所述全局文本感知模块(2)用于对所述源图像进行融合并根据所述CLIP文本特征把所述CLIP图像特征整合到融合结果中,得到初步融合结果,以丰富所述初步融合结果的全局信息,并把所述初步融合结果输入所述特征提取网络(6);
所述特征提取网络(6)嵌入有至少一个局部文本感知模块(9),所述特征提取网络(6)用于对所述初步融合结果进行特征提取,并在特征提取过程中根据所述BLIP文本特征把所述CLIP图像特征整合到特征提取结果中,以丰富所述特征提取结果的局部信息,并把所述特征提取结果输入所述解码器(7);
所述解码器(7)用于对所述特征提取结果进行解码生成最终融合图像,并通过所述输出层(8)输出所述最终融合图像。
2.根据权利要求1所述的基于全局和局部文本感知的多模态图像融合模型,其特征在于,所述全局文本感知模块(2)包括第一卷积层(201)、第一分离层(202)、第一最大池化层(203)、第一残差模块(204)、第一交叉注意力模块(205)、第二卷积层(206)、第二分离层(207)、第二最大池化层(208)、第二残差模块(209)和第二交叉注意力模块(210);
所述第一卷积层
您可能关注的文档
- CN119180998B 一种基于地理信息条件扩散模型的多模态样本生成方法 (中国地质大学(武汉)).docx
- CN119199850B 煤矿采空区沉陷盆地边界的测量方法及装置 (中国地质大学(北京)).docx
- CN119206237B 一种基于全卷积神经网络的医学图像分割方法 (常熟理工学院).docx
- CN119226842B 一种用于电力数据分类整理的系统及方法 (国网冀北电力有限公司).docx
- CN119227013B 一种基于人工智能的数据搜索方法及系统 (上海银行股份有限公司).docx
- CN119240673B 一种单壁少壁碳纳米管的制备装置和方法 (青岛超瑞纳米新材料科技有限公司).docx
- CN119273371B 一种基于人工智能的改进农业生产过程溯源方法 (广东科技学院).docx
- CN119290000B 一种室内无人机定位导航路径规划方法及系统 (洲际联合超伦科技(北京)有限公司).docx
- CN119311959B 基于大语言模型的机票推荐方法、装置以及电子设备 (中国民航信息网络股份有限公司).docx
- CN119322858B 一种知识服务体系构建方法 (国网山东省电力公司营销服务中心(计量中心)).docx
- CN119823941B 一种间充质干细胞外泌体的制备方法及其应用 (博雅干细胞科技有限公司细胞科技分公司).docx
- CN119827396B 一种高精密不锈钢耐蚀性测试方法 (珠海市同益电子有限公司).docx
- CN119829726B 一种具备长短期记忆的自学习智能问答系统及方法 (翌东寰球(深圳)数字科技有限公司).docx
- CN119831907B 一种图像投影的畸变校正方法及系统 (深圳市大屏影音技术有限公司).docx
- CN119832527B 基于st-gcn的轨道交通驾驶员操作规范性监测方法及装置 (天津致新轨道交通运营有限公司).docx
- CN119838479B 一种锂离子电池粉末在线除铁气流混合机及混合除铁方法 (江苏高达智能装备有限公司).docx
- CN119846652B 一种基于激光雷达与视觉结合的无人机探测跟踪方法及系统 (中联德冠科技(北京)有限公司).docx
- CN119848470B 基于多模态数据融合的电网设备健康状态预测方法及系统 (广东电网有限责任公司).docx
- CN119848787B 基于大数据的煤矿设备故障预测系统及方法 (北京阳光金力科技发展有限公司).docx
- CN119850051B 一种基于多模态学习的企业增值服务智能匹配方法及系统 (江苏风云科技服务有限公司).docx
最近下载
- 第6讲等效荷载法、预应力次内力计算2.ppt VIP
- 自来水厂扩建工程总施工组织设计.docx VIP
- 2023年高考英语试卷(新课标Ⅰ卷)(空白卷).pdf VIP
- SYT 5619-2018 -定向井下部钻具组合设计方法.pdf VIP
- 风化壳离子吸附型稀土矿中稀土元素含量测定与赋存形态研究.docx VIP
- 三年级上册英语(川教版)期末质量检测试卷(附答案) (1).docx VIP
- 2022年湖南师范大学附属中学招聘考试真题.pdf VIP
- 广汽埃安V Plus保养手册.docx VIP
- 蒸汽炉-西门子HB24D552W∕45:使用说明.pdf VIP
- 中国电信新一代bss30计费openapi介绍.pdf VIP
原创力文档


文档评论(0)