- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN114332519B(45)授权公告日2025.07.01
(21)申请号202111638065.5
(22)申请日2021.12.29
(65)同一申请的已公布的文献号申请公布号CN114332519A
(43)申请公布日2022.04.12
(73)专利权人杭州电子科技大学
地址310018浙江省杭州市下沙高教园区2
号大街
(72)发明人姜明陈景翔张旻李鹏飞
(74)专利代理机构杭州君度专利代理事务所(特殊普通合伙)33240
专利代理师朱月芬
GO6V10/82(2022.01)GO6F16/35(2025.01)GO6N3/0442(2023.01)
GO6N3/0464(2023.01)GO6N3/088(2023.01)
(56)对比文件
CN113609326A,2021.11.05CN113642630A,2021.11.12审查员马银雪
(51)Int.CI.
GO6V10/762(2022.01)
GO6V10/80(2022.01)权利要求书3页说明书5页附图3页
(54)发明名称
一种基于外部三元组和抽象关系的图像描述生成方法
(57)摘要
CN114332519B本发明公开了一种基于外部三元组和抽象关系的图像描述生成方法。本发明首先提取图像描述文本中的三元组,构建外部关系库并对三元组进行特征编码。将文本相似度高于阈值的三元组聚类为一类。同时模型对图像进行目标检测得得到目标视觉特征集合与目标类别集合;根据文本相似度在外部关系库中查询目标与目标类别相似的三元组。模型利用目标视觉特征对图像的目标、属性、关系分别进行预测,生成场景图;并利用卷积神经网络融合视觉特征与文本特征,对目标、属性、关系进行特征编码。最后融合场景图目标、属性、关系编码特征与相似关系和抽象关系的编码特征,输入到双层LSTM序列生成模型中
CN114332519B
视觉模块
视觉模块
视觉特征预割目标
构建场景图
预测关系日标类别
编码模块
外部知识模块
BFKT
构建外部关系库
聚类抽象关系
amanwitharedhelmenidinga
motoreycledownacountrysideditroad
amanwitharedhelmetonasmalmopedonaditroad.
场景图端码
融合特征
且标检测
双层LSTM模型
解码模块
编码
CN114332519B权利要求书1/3页
2
1.一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于包括以下步骤:
步骤(1)使用开放域知识抽取工具,提取图像描述文本中的三元组,构建外部关系库,并对三元组进行特征编码;
步骤(2)根据三元组中关系rel的文本相似度,将文本相似度高于设定阈值的三元组聚类为一类,称之为抽象关系Ras;
步骤(3)对图像进行目标检测,得到目标视觉特征集合V与目标类别集合W;根据文本相似度,在外部关系库中查询目标obj与目标类别相似的三元组,称之为相似关系Rs;m;
步骤(4)利用目标视觉特征V,对图像的目标obj、属性attr、关系rel分别进行预测,生成场景图;并利用多模态图卷积神经网络MGCN融合目标视觉特征与目标类别W的词向量,对目标obj、属性attr、关系rel进行特征编码;
步骤(5)图像描述生成模型用于融合场景图编码特征与关系编码特征,得到融合特征;所述的关系编码特征包括相似关系的编码特征和抽象关系的编码特征;融合特征输入到图像描述生成模型的双层LSTM解码器中进行训练,挑选最优训练模型;将图像输入训练好的图像描述生成模型,输出对应的图像描述;
步骤(4)具体实现过程如下:
4-1利用目标视觉特征V,对图像的目标obj、属性attr、关系rel分别进行预测,生成场景图;对于目标,利用FasterRCNN进行目标检测;对于属性,利用预先训练的属性分类器进行属性预测;对于关系,利用MOTIFS场景图生成模型进行关系检测;最终分别得到目标obj、属性attr、关系rel的类别词向量e。,ea,e以
您可能关注的文档
- CN113448267B 用于制备食物的厨房系统及其操作方法和计算机程序产品 (德国福维克控股公司).docx
- CN113473106B 图像传输方法、图像显示及处理设备、及图像传输系统 (青岛小鸟看看科技有限公司).docx
- CN113489486B 片内晶振校准电路及校准方法 (青芯半导体科技(上海)有限公司).docx
- CN113525385B 一种车辆行程能耗的预测方法及装置 (株式会社日立制作所).docx
- CN113534543B 一种灌晶系统及灌晶方法 (麒麟电子(深圳)有限公司).docx
- CN113687811B 一种音频信号输出控制方法及显示设备 (Vidaa(荷兰)国际控股有限公司).docx
- CN113772027B 浮板集合体以及浮板集合体的设置方法 (京洛株式会社).docx
- CN113882238B 大跨度上承式索辅梁拱组合刚构桥及其施工方法 (林同棪国际工程咨询(中国)有限公司).docx
- CN113936202B 图像安全处理方法和装置、电子设备和存储介质 (北京地平线信息技术有限公司).docx
- CN113992423B8 一种计算机网络防火墙的使用方法 (枣庄科技职业学院).docx
最近下载
- 炼油工艺基础知识.pptx VIP
- 高中语文复习提升-忻州一中学生行为考核条例新生学习学生行为考核细则100条(A4版).doc VIP
- 年产30万吨硫酸项目初步设计说明书.doc VIP
- 炼油工艺基础知识.pptx VIP
- 小学四年级数学《行程问题》应用题专项训练,重点题型!.pdf VIP
- 山西出版集团笔试真题.pdf
- 新疆哈密市2024-2025学年八年级上学期期末考试语文试题.docx VIP
- 混凝土回弹自动计算软件(支持多角度、浇筑面、非泵送、泵送、碳化、高强砼回弹).xls VIP
- 2025年AWS认证SQS消息吞吐量与扩展性专题试卷及解析.pdf VIP
- 合格证模板打印可修改.docx VIP
原创力文档


文档评论(0)