CN114332519B 一种基于外部三元组和抽象关系的图像描述生成方法 (杭州电子科技大学).docxVIP

CN114332519B 一种基于外部三元组和抽象关系的图像描述生成方法 (杭州电子科技大学).docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114332519B(45)授权公告日2025.07.01

(21)申请号202111638065.5

(22)申请日2021.12.29

(65)同一申请的已公布的文献号申请公布号CN114332519A

(43)申请公布日2022.04.12

(73)专利权人杭州电子科技大学

地址310018浙江省杭州市下沙高教园区2

号大街

(72)发明人姜明陈景翔张旻李鹏飞

(74)专利代理机构杭州君度专利代理事务所(特殊普通合伙)33240

专利代理师朱月芬

GO6V10/82(2022.01)GO6F16/35(2025.01)GO6N3/0442(2023.01)

GO6N3/0464(2023.01)GO6N3/088(2023.01)

(56)对比文件

CN113609326A,2021.11.05CN113642630A,2021.11.12审查员马银雪

(51)Int.CI.

GO6V10/762(2022.01)

GO6V10/80(2022.01)权利要求书3页说明书5页附图3页

(54)发明名称

一种基于外部三元组和抽象关系的图像描述生成方法

(57)摘要

CN114332519B本发明公开了一种基于外部三元组和抽象关系的图像描述生成方法。本发明首先提取图像描述文本中的三元组,构建外部关系库并对三元组进行特征编码。将文本相似度高于阈值的三元组聚类为一类。同时模型对图像进行目标检测得得到目标视觉特征集合与目标类别集合;根据文本相似度在外部关系库中查询目标与目标类别相似的三元组。模型利用目标视觉特征对图像的目标、属性、关系分别进行预测,生成场景图;并利用卷积神经网络融合视觉特征与文本特征,对目标、属性、关系进行特征编码。最后融合场景图目标、属性、关系编码特征与相似关系和抽象关系的编码特征,输入到双层LSTM序列生成模型中

CN114332519B

视觉模块

视觉模块

视觉特征预割目标

构建场景图

预测关系日标类别

编码模块

外部知识模块

BFKT

构建外部关系库

聚类抽象关系

amanwitharedhelmenidinga

motoreycledownacountrysideditroad

amanwitharedhelmetonasmalmopedonaditroad.

场景图端码

融合特征

且标检测

双层LSTM模型

解码模块

编码

CN114332519B权利要求书1/3页

2

1.一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于包括以下步骤:

步骤(1)使用开放域知识抽取工具,提取图像描述文本中的三元组,构建外部关系库,并对三元组进行特征编码;

步骤(2)根据三元组中关系rel的文本相似度,将文本相似度高于设定阈值的三元组聚类为一类,称之为抽象关系Ras;

步骤(3)对图像进行目标检测,得到目标视觉特征集合V与目标类别集合W;根据文本相似度,在外部关系库中查询目标obj与目标类别相似的三元组,称之为相似关系Rs;m;

步骤(4)利用目标视觉特征V,对图像的目标obj、属性attr、关系rel分别进行预测,生成场景图;并利用多模态图卷积神经网络MGCN融合目标视觉特征与目标类别W的词向量,对目标obj、属性attr、关系rel进行特征编码;

步骤(5)图像描述生成模型用于融合场景图编码特征与关系编码特征,得到融合特征;所述的关系编码特征包括相似关系的编码特征和抽象关系的编码特征;融合特征输入到图像描述生成模型的双层LSTM解码器中进行训练,挑选最优训练模型;将图像输入训练好的图像描述生成模型,输出对应的图像描述;

步骤(4)具体实现过程如下:

4-1利用目标视觉特征V,对图像的目标obj、属性attr、关系rel分别进行预测,生成场景图;对于目标,利用FasterRCNN进行目标检测;对于属性,利用预先训练的属性分类器进行属性预测;对于关系,利用MOTIFS场景图生成模型进行关系检测;最终分别得到目标obj、属性attr、关系rel的类别词向量e。,ea,e以

您可能关注的文档

文档评论(0)

aabbcc + 关注
实名认证
文档贡献者

若下载文档格式有问题,请咨询qq1643702686索取原版

1亿VIP精品文档

相关文档