- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN115239944B(45)授权公告日2025.07.08
(21)申请号202210661517.X
(22)申请日2022.06.13
(65)同一申请的已公布的文献号申请公布号CN115239944A
(43)申请公布日2022.10.25
(73)专利权人中国矿业大学
地址221116江苏省徐州市大学路1号中国
矿业大学
(72)发明人刘兵王栋刘明明陆劲夫
李穗
(74)专利代理机构南京瑞弘专利商标事务所(普通合伙)32249
专利代理师李悦声
(51)Int.CI.
GO6V10/25(2022.01)
GO6V10/40(2022.01)
GO6V10/82(2022.01)
GO6V10/764(2022.01)
GO6V10/44(2022.01)
GO6V10/80(2022.01)
GO6V20/62(2022.01)
GO6N3/047(2023.01)
GO6N3/045(2023.01)
GO6N3/042(2023.01)
GO6N3/088(2023.01)
GO6N3/0464(2023.01)
GO6N5/04(2023.01)
GO6N3/092(2023.01)
(56)对比文件
CN113946706A,2022.01.18CN113609326A,2021.11.05
审查员杨晓东
权利要求书4页说明书10页附图2页
(54)发明名称
基于因果推理的图像标题自动生成方法
(57)摘要
CN115239944B本发明公开了一种基于因果图的因果推理图像字幕生成方法,适用于在图像字幕中使用。构建基于详细的因果图的因果推理方法图像字幕CIIC框架,包括非对齐特征Transformer编码器和干预式Transformer解码器,非对齐特Transformer解码器包括顺序连接的FASTERR-CNN、干预式目标检测器IOD和标准的Transformer编码器;干预式Transformer解码器为在标准的Transformer解码器的前馈神经网络层模块之后插入一个因果干预CI模块组成;干预式目标检测器IOD和干预式Transformer解码器ITD联合控制视觉混淆因子和文本混淆因子对输入图像先进行编码,然后进行解码。通过后门调整能够消除混淆,有效解决传统图像描述中对编
CN115239944B
5
5
CN115239944B权利要求书1/4页
2
1.一种基于因果推理和Transformer的图像标题自动生成方法,其特征在于:构建基于详细的因果图的因果推理方法图像字幕CIIC框架,因果图包括视觉混淆因子和文本混淆因子;
所述因果推理方法图像字幕CIIC框架包括顺序连接的非对齐特征Transformer编码器UFT和干预式Transformer解码器ITD,其中非对齐特Transformer解码器包括顺序连接的FASTERR-CNN、干预式目标检测器IOD和标准的Transformer编码器;干预式Transformer解码器为在标准的Transformer解码器的前馈神经网络层模块之后插入一个因果干预CI模块组成;干预式目标检测器IOD和干预式Transformer解码器ITD联合控制视觉混淆因子和文本混淆因子对输入图像先进行编码,然后进行解码;
其中非对齐特征Transformer编码器UFT先将IOD提取到的解混淆视觉特征与从同一幅图像中提取的自底向上特征送入两个线性层映射生成Q,K,V向量,通过自注意力和交叉注意力进行集成,再进行传统Transformer中的AddNorm操作和前馈传播操作,得到的输出传到下一层编码块中,一共为L块,即叠加L次编码;干预式Transformer解码器ITD输入为当前生成的句子部分,
您可能关注的文档
- CN115131188B 一种基于生成对抗网络的鲁棒图像水印方法 (南京信息工程大学).docx
- CN115133016B 一种锂离子电池高镍单晶正极材料的制备方法 (万华化学(四川)有限公司).docx
- CN115136218B 管制装置、停车场系统以及位置精度计算方法 (株式会社电装).docx
- CN115143115B 带有通风装置的护套罩壳泵以及从属的方法 (Ksb股份公司).docx
- CN115146416B 一种工程机械液压系统模型参数辨识方法、装置和挖掘机 (三一重机有限公司).docx
- CN115147262B 一种图像生成方法和装置 (杭州海康威视数字技术股份有限公司).docx
- CN115147499B 标定参数确定方法、混合标定板、装置、设备和介质 (深圳思谋信息科技有限公司).docx
- CN115147742B 基于3d深度卷积神经网络的小样本高光谱图像分类方法 (西安理工大学).docx
- CN115150705B 自动切换活动麦克风的系统、方法和计算机可读介质 (谷歌有限责任公司).docx
- CN115150781B 一种无人机协助边缘计算的资源分配方法 (重庆邮电大学).docx
- CN115249211B 一种基于水下非均匀入射光模型的图像复原方法 (复旦大学).docx
- CN115278843B 应用于多载波通信系统中的省电方法 (北京小米移动软件有限公司).docx
- CN115280482B 夹持器装置、输送车以及输送方法 (村田机械株式会社).docx
- CN115293287B 一种基于车载雷达的对目标进行聚类的方法、存储器及电子装置 (西安电子科技大学芜湖研究院).docx
- CN115298992B 考虑重新激活的所配置的许可来执行自主重传的方法和装置 (三星电子株式会社).docx
- CN115308826B 闪耀光栅的制造方法 (杭州探真纳米科技有限公司).docx
- CN115312758B 一种富锂正极材料表面处理的方法及应用 (北京大学深圳研究生院).docx
- CN115312814B 一种氢燃料电池系统自适应氧气过量比设置方法 (浙江大学).docx
- CN115314719B 直播上报数据处理方法、装置和计算机设备 (腾讯科技(深圳)有限公司).docx
- CN115330816B 基于多头交叉注意力转换网络的多时相肝肿瘤分割方法 (西安电子科技大学).docx
最近下载
- 金航联执业药师继续教育《中药组方配伍之“汤液经法图”全解析》习题答案.docx VIP
- 小学生青少年《法制教育》主题班会PPT课件.pptx VIP
- DB1331_T 114-2025 雄安新区近零碳变电站技术标准.pdf VIP
- 五年级语文第一学期期末测试.pdf VIP
- 2025年执业药师继续教育试题 -中药组方配伍之“汤液经法图”全解析.docx VIP
- 农业机械运行安全技术条件.pptx VIP
- 2025年龙岩学院计算机科学与技术专业《数据库原理》科目期末试卷A(有.pdf VIP
- 纯化水再验证方案.doc VIP
- 财务管理说课课件市公开课一等奖省赛课微课金奖课件.ppt VIP
- 上海牛津版第一学期五年级英语期末测试及答案 .pdf VIP
原创力文档


文档评论(0)