- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN120014280B(45)授权公告日2025.07.04
(21)申请号202510470102.8
(22)申请日2025.04.15
(65)同一申请的已公布的文献号申请公布号CN120014280A
(43)申请公布日2025.05.16
(73)专利权人中国民用航空飞行学院
地址618307四川省德阳市广汉市南昌路
四段46号
(72)发明人黄邦菊李俊辉黄龙杨
(74)专利代理机构北京市领专知识产权代理有限公司11590
专利代理师向兵
(51)Int.CI.
GO6V10/26(2022.01)
GO6V20/70(2022.01)
GO6V10/80(2022.01)
GO6N3/0464(2023.01)
GO6V10/764(2022.01)
GO6V20/17(2022.01)
(56)对比文件
BangjuHuang等.ExpandingOpen-
VocabularyUnderstandingforUAVAerialImagery:AVision-LanguageFrameworktoSemanticSegmentation.《Drones2025》.2025,第9卷(第155期),第1-11页第3章,图1.
DoudouZhang等.MF-SAM:enhancing
multi-modalfusionwithMambainSAM-Med3DforGPisegmentation.《VisComput(2025)》.2025,正文第3章,图1.
胡俊等.MRAU-net网络下的X光胸片肺野分割算法.《华侨大学学报(自然科学版)》.2023,第44卷(第3期),第399-401页第1章,图1.
审查员边放
审查员边放
GO6V10/82(2022.01)
(54)发明名称
视觉语言融合的无人机航拍图像开放词汇语义分割方法
(57)摘要
CN120014280B本发明公开了一种视觉语言融合的无人机航拍图像开放词汇语义分割方法,其涉及多模态人工智能技术领域。本方法基于多种注意力机制、多层次融合模块、动态调整机制,构建了视觉语言融合分割模型,确保了复杂场景下对已知与未知类别的航拍图像实现高精度、鲁棒性的分割效果;利用VIT、Mamba模型提取全局图像信息、局部图像细节,并采用自适应加权融合实现全局与局部特征的动态平衡,使用可变形卷积对局部结构进行强化,保证整体场景语义的准确表达;利用异构跨模态图融合模型整合更远距离的跨模
CN120014280B
开始
开始
利用无人机采集不同环境条件下的无类别航拍混合图像,生成对应的语言描述数
构建视觉语言融合分割模型
将无类别航拍混合图像、语言描述数据输入至视觉-
语言特征提取模型,输出得到多尺度时空视觉特征、语言特征
将语言特征和多尺度时空视觉特征输入至异构跨模态图融合模型,输出得到视觉-语言匹配特征
将视觉-语言匹配特征输入至语义分割模型
结束
S1
S2
S4
CN120014280B权利要求书1/3页
2
1.一种视觉语言融合的无人机航拍图像开放词汇语义分割方法,其特征在于,包括:
利用无人机采集不同环境条件下的无类别航拍混合图像,生成对应的语言描述数据;
构建视觉语言融合分割模型;所述视觉语言融合分割模型包括视觉-语言特征提取模型、异构跨模态图融合模型和语义分割模型;
将无类别航拍混合图像、语言描述数据输入至视觉-语言特征提取模型,输出得到多尺度时空视觉特征、语言特征;
将语言特征和多尺度时空视觉特征输入至异构跨模态图融合模型,输出得到视觉-语言匹配特征;
将视觉-语言匹配特征输入至语义分割模型,完成对航拍图像的语义分割;
所述语义分割模型采用轻量级U-Net++模型;所述语义分割模型的训练过程包括:
获取视觉-语言匹配训练特征并输入至轻量级U-Net++模型,输出得到语义分割训练结果;基于语义分割训练结果,计算动态权重三元组损失函数和广义交并比损失函数;基于动态权重三元组损失函数和广义交并比损失函
您可能关注的文档
- CN115730453B 一种基于掘进阻力的tbm卡机风险预警方法及系统 (武汉大学).docx
- CN115801594B 电力数据通信网的数字孪生模型的构建方法、设备及介质 (国网辽宁省电力有限公司信息通信分公司).docx
- CN115802278B 基于卫星信号的数据通信方法、装置、计算机设备和介质 (华安中云股份有限公司).docx
- CN115860413B 基于负荷需求响应与双层可调鲁棒优化的并网冷热电联产微网系统经济调度方法 (南昌大学).docx
- CN115884685B 使用黄原胶来稳定水性基质中的至少一种尿石素的组合物和方法 (雀巢产品有限公司).docx
- CN115908842B 变压器局部放电数据增强与识别方法 (淮南市潘阳光伏发电有限公司).docx
- CN115909040B 一种基于自适应多特征融合模型的水声目标识别方法 (西安邮电大学).docx
- CN116068900B 面向多非完整约束移动机器人的强化学习行为控制方法 (福州大学).docx
- CN116072134B 基于dct-ddpm的音乐音频修复方法及系统 (四川大学).docx
- CN116125285B 基于单体间流量不均匀性的液流电池性能预测方法 (西安交通大学).docx
原创力文档


文档评论(0)