CN116958829B 基于文本引导的遥感图像视觉定位方法 (西安电子科技大学).docxVIP

CN116958829B 基于文本引导的遥感图像视觉定位方法 (西安电子科技大学).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN116958829B(45)授权公告日2025.07.01

(21)申请号202310866853.2

(22)申请日2023.07.14

(65)同一申请的已公布的文献号申请公布号CN116958829A

(43)申请公布日2023.10.27

(73)专利权人西安电子科技大学

地址710071陕西省西安市雁塔区太白南

路2号

(72)发明人王笛赵晓虹王义峰王泉

万波田玉敏罗雪梅刘锦辉

赵辉潘蓉

(51)Int.CI.

GO6V20/13(2022.01)

GO6V20/62(2022.01)

GO6V30/14(2022.01)

GO6V30/18(2022.01)

GO6V30/19(2022.01)

GO6N3/048(2023.01)

GO6N3/08(2023.01)

(56)对比文件

CN113849668A,2021.12.28

CN116152810A,2023.05.23

审查员陈红圆

(74)专利代理机构陕西电子工业专利中心

61205

专利代理师陈宏社

权利要求书3页说明书7页附图2页

(54)发明名称

基于文本引导的遥感图像视觉定位方法

(57)摘要

CN116958829B本发明提出了一种基于文本引导的遥感图像视觉定位方法,实现步骤为:获取训练样本集和测试样本集;构建遥感图像视觉定位网络模型:包括文本引导视觉特征生成网络、文本编码器、多模态融合网络和定位网络;初始化参数;对视觉定位网络模型进行训练;对视觉定位网络模型的参数进行更新;获取视觉定位检测结果;本发明所构建的定位网络模型使用全局文本特征在通道级别和空间级别对视觉特征的生成进行了引导,充分利用了文本特征的全局语义信息,减少了语义信息中的歧义,而且在多个阶段利用不同层次的文本特征对不同尺度的视觉特征进行引导,充分利用了文本的浅层特征与深层特征,以及不同尺度视觉特征图的空间信息,对原

CN116958829B

获取训练样本集和测试样本集

获取训练样本集和测试样本集

构建文本引导的遥感图像视觉定位模型

初始化参数

对视觉定位模型进行训练

对视觉定位模型的参数进行更新

获得遥感图像视觉定位结果

CN116958829B权利要求书1/3页

2

1.一种基于文本引导的遥感图像视觉定位方法,其特征在于,包括如下步骤:

(1)获取训练样本集和测试样本集:

对获取的K幅遥感图像中每幅遥感图像所包含的目标进行标注,并将M幅遥感图像与其对应的标注框及其文本组成训练样本集R?,将剩余的K-M幅遥感图像与其对应的标注框及

其文本组成测试样本集E?,其中K≥500,

(2)构建遥感图像视觉定位网络模型G:

构建包括并行排布的文本引导视觉特征生成网络和文本编码器,以及与文本引导视觉特征生成网络和文本编码器的输出端依次级联的多模态融合网络和定位网络的遥感图像视觉定位网络模型G;文本引导视觉特征生成网络包括依次级联的下采样块、N个由级联的视觉特征提取模块和文本引导融合模块组成的复合模块,和R个Transformer编码器,其中文本引导融合模块包含顺次连接的通道级语言引导融合模块和空间级语言引导融合模块;文本编码器包括依次级联的N个文本特征提取块,第n个文本特征提取块还与对应的第n个文本引导融合模块连接;多模态融合网络包括并行排布的语言引导模块和上下文引导模块,以及与语言引导模块和上下文引导模块的输出端依次级联的S个Transformer解码器;其中,N≥1,R≥1,S≥1;

(3)初始化参数:

初始化迭代次数为h,最大迭代次数为H,H≥150,第h次迭代的视觉定位网络模型G的权值、偏置参数分别为w、b,并令h=0,G?=G;

(4)对视觉定位网络模型G进行训练:

将从训练样本集R?中随机有放回的选取L个训练样本作为视觉定位网络模型G的输入进行前向传播,得到L个视觉定位结果,其中,1≤L≤M;

(5)对视觉定位网络模型的参数进行更新:

通过步骤(4)获得的L个视觉定位结果,对视觉定位网络模型G,的权值、偏置参数w、b?进行更新,得到本次迭代的网络模型G?;并判断hH堤否成立,若是,得到训练好

您可能关注的文档

文档评论(0)

xm + 关注
实名认证
文档贡献者

专业学习资料,专业文档

1亿VIP精品文档

相关文档