CN120014280B 视觉语言融合的无人机航拍图像开放词汇语义分割方法（中国民用航空飞行学院）.docxVIP

下载本文档

0
0
约2.14万字
约 33页
2026-01-16 发布于重庆
举报
版权申诉

CN120014280B 视觉语言融合的无人机航拍图像开放词汇语义分割方法（中国民用航空飞行学院）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN120014280B(45)授权公告日2025.07.04

(21)申请号202510470102.8

(22)申请日2025.04.15

(65)同一申请的已公布的文献号申请公布号CN120014280A

(43)申请公布日2025.05.16

(73)专利权人中国民用航空飞行学院

地址618307四川省德阳市广汉市南昌路

四段46号

(72)发明人黄邦菊李俊辉黄龙杨

(74)专利代理机构北京市领专知识产权代理有限公司11590

专利代理师向兵

(51)Int.CI.

GO6V10/26(2022.01)

GO6V20/70(2022.01)

GO6V10/80(2022.01)

GO6N3/0464(2023.01)

GO6V10/764(2022.01)

GO6V20/17(2022.01)

(56)对比文件

BangjuHuang等.ExpandingOpen-

VocabularyUnderstandingforUAVAerialImagery:AVision-LanguageFrameworktoSemanticSegmentation.《Drones2025》.2025,第9卷(第155期),第1-11页第3章，图1.

DoudouZhang等.MF-SAM:enhancing

multi-modalfusionwithMambainSAM-Med3DforGPisegmentation.《VisComput(2025)》.2025,正文第3章，图1.

胡俊等.MRAU-net网络下的X光胸片肺野分割算法.《华侨大学学报(自然科学版)》.2023,第44卷(第3期),第399-401页第1章，图1.

审查员边放

GO6V10/82(2022.01)

(54)发明名称

视觉语言融合的无人机航拍图像开放词汇语义分割方法

(57)摘要

CN120014280B本发明公开了一种视觉语言融合的无人机航拍图像开放词汇语义分割方法，其涉及多模态人工智能技术领域。本方法基于多种注意力机制、多层次融合模块、动态调整机制，构建了视觉语言融合分割模型，确保了复杂场景下对已知与未知类别的航拍图像实现高精度、鲁棒性的分割效果；利用VIT、Mamba模型提取全局图像信息、局部图像细节，并采用自适应加权融合实现全局与局部特征的动态平衡，使用可变形卷积对局部结构进行强化，保证整体场景语义的准确表达；利用异构跨模态图融合模型整合更远距离的跨模

CN120014280B

开始

利用无人机采集不同环境条件下的无类别航拍混合图像，生成对应的语言描述数

构建视觉语言融合分割模型

将无类别航拍混合图像、语言描述数据输入至视觉-

语言特征提取模型，输出得到多尺度时空视觉特征、语言特征

将语言特征和多尺度时空视觉特征输入至异构跨模态图融合模型，输出得到视觉-语言匹配特征

将视觉-语言匹配特征输入至语义分割模型

结束

CN120014280B权利要求书1/3页

1.一种视觉语言融合的无人机航拍图像开放词汇语义分割方法，其特征在于，包括：

利用无人机采集不同环境条件下的无类别航拍混合图像，生成对应的语言描述数据；

构建视觉语言融合分割模型；所述视觉语言融合分割模型包括视觉-语言特征提取模型、异构跨模态图融合模型和语义分割模型；

将无类别航拍混合图像、语言描述数据输入至视觉-语言特征提取模型，输出得到多尺度时空视觉特征、语言特征；

将语言特征和多尺度时空视觉特征输入至异构跨模态图融合模型，输出得到视觉-语言匹配特征；

将视觉-语言匹配特征输入至语义分割模型，完成对航拍图像的语义分割；

所述语义分割模型采用轻量级U-Net++模型；所述语义分割模型的训练过程包括：

获取视觉-语言匹配训练特征并输入至轻量级U-Net++模型，输出得到语义分割训练结果；基于语义分割训练结果，计算动态权重三元组损失函数和广义交并比损失函数；基于动态权重三元组损失函数和广义交并比损失函

您可能关注的文档

文档评论（0）

aabbcc + 关注: 实名认证

文档贡献者

若下载文档格式有问题，请咨询qq1643702686索取原版

咨询Ta 进入空间

1亿VIP精品文档

更多 >

CN120014280B 视觉语言融合的无人机航拍图像开放词汇语义分割方法（中国民用航空飞行学院）.docxVIP