- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN114821223B(45)授权公告日2025.07.08
(21)申请号202210327383.8
(22)申请日2022.03.30
(65)同一申请的已公布的文献号申请公布号CN114821223A
(43)申请公布日2022.07.29
(56)对比文件
CN114186564A,2022.03.15审查员汪三骏
(73)专利权人杭州阿里巴巴海外互联网产业有
限公司
地址310052浙江省杭州市滨江区长河街
道网商路699号5号楼3楼303室
(72)发明人季葛鹏高德宏宁伟仇光
(74)专利代理机构北京展翼知识产权代理事务所(特殊普通合伙)11452
专利代理师张阳
(51)Int.CI.
GO6V10/774(2022.01)权利要求书2页说明书10页附图4页
(54)发明名称
预训练图像文本模型处理方法和图文检索系统
(57)摘要
CN114821223B本发明公开了一种预训练图像文本模型处理方法和图文检索系统。所述方法包括:获取对图像文本样本对中的字和图像块进行掩码处理的掩码训练样本对;将掩码训练样本对输入预训练图像文本模型,获取针对被掩码字、被掩码图像块和图像文本任务输出的损失值,其中,预训练图像文本模型包括多级下采样编码器和多级上采样解码器;以及根据损失值,调整所述预训练图像文本模型中的参数。本发明通过图像的分块嵌入化结合多级下采样编码器和逐级对应的上采样解码器的模型结构实现了预训练图像语言网络中被掩码图像块的像素级重建。进一步地,将实现输入图像和文本嵌入化的自建残差子
CN114821223B
获取对图像文本样本对中的字和图像
获取对图像文本样本对中的字和图像块进行掩码处理的掩码训练样本对
将掩码训练样本对输入预训练图像文
本模型,获取针对被掩码字、被掩码图像块和图像文本任务输出的损失值
根据所述损失值,调整预训练图像文本模型中的参数
S110
S120
S130
CN114821223B权利要求书1/2页
2
1.一种预训练图像文本模型处理方法,包括:
获取对图像文本样本对中的字和图像块进行掩码处理的掩码训练样本对,其中,通过对图像中特定图像块进行掩码并对文字描述中的特定单词进行掩码来获取所述掩码训练样本对;
将所述掩码训练样本对输入所述预训练图像文本模型,获取所述预训练图像文本模型针对被掩码字、被掩码图像块和图像文本任务输出的损失值,其中,所述预训练图像文本模型包括多级下采样编码器和多级上采样解码器,其中,基于所述多级下采样编码器的输出,求取针对所述被掩码字和所述图像文本任务输出的损失值,并且基于所述多级上采样解码器的输出求取针对所述被掩码图像块的损失值;
根据所述损失值,调整所述预训练图像文本模型中的参数。
2.如权利要求1所述的方法,其中,将所述掩码训练样本对输入所述预训练图像文本模型包括:
使用嵌入变换子网络从所述掩码训练样本对生成文本嵌入向量和图像嵌入向量,其中,所述图像文本样本对中的图像被划分为多个块,并基于划分的块生成所述图像嵌入向量。
3.如权利要求2所述的方法,其中,将所述掩码训练样本对输入所述预训练图像文本模型包括在每级下采样编码器中进行如下操作:
所述文本嵌入向量串接经过平坦化处理的所述图像嵌入向量得到合成向量,
所述合成向量经过空间缩减后送入由多头注意子网络和前馈网络构成的编码器单元;以及
拆分经编码器单元处理的所述合成向量,获取经下采样的所述文本嵌入向量,并对剩余部分进行重构以获取经下采样的所述图像嵌入向量。
4.如权利要求3所述的方法,其中,在每级下采样编码器中,所述图像嵌入向量在平坦化处理前经过卷积模块处理。
5.如权利要求3所述的方法,其中,将所述掩码训练样本对输入所述预训练图像文本模型包括:
将经过多级下采样的所述图像嵌入向量送入所述多级上采样解码器,获取与输入图像相同维度的经处理图像嵌入向量。
6.如权利要求5所述的方法,其中,利用所述经处理图像嵌入向量获取所述预训练图像文本模型针对所述被掩码图像块的损失值,用于所述被掩码图像块的像素级重建。
7.如权利要求5所述的方法,其中,基于待提取图像特征粒度设置所述
您可能关注的文档
- CN114764331B 代码生成方法、装置、电子设备和计算机可读存储介质 (上海壁仞科技股份有限公司).docx
- CN114779015B 基于超分辨率和图神经网络的配电网故障诊断与定位方法 (浙江大学).docx
- CN114785330B 高压集成电路、计数方法和半导体电路 (广东汇芯半导体有限公司).docx
- CN114786009B 视频编码中限制块尺寸的视频数据处理方法与装置 (寰发股份有限公司).docx
- CN114788134B 马达铁芯及其制造方法 (杰富意钢铁株式会社).docx
- CN114817648B 一种高能效协同图计算方法及装置 (华中科技大学).docx
- CN114818316B 基于锂离子电池电化学模型的功率出力可行域估计方法 (清华大学).docx
- CN114821443B 视频特征提取网络的训练方法及装置 (浙江网商银行股份有限公司).docx
- CN114821820B 活体检测方法、装置、计算机设备和存储介质 (腾讯科技(深圳)有限公司).docx
- CN114846918B 电子部件模块以及电子部件模块的制造方法 (株式会社村田制作所).docx
- 广东省东莞市2024-2025学年八年级上学期生物期中试题(解析版).pdf
- 非遗剪纸文创产品开发经理岗位招聘考试试卷及答案.doc
- 广东省东莞市2024-2025学年高二上学期期末教学质量检查数学试题.pdf
- 体育安全理论课件图片素材.ppt
- 3.1 公民基本权利 课件-2025-2026学年道德与法治八年级下册 统编版 .pptx
- 广东省潮州市湘桥区城南实验中学等校2024-2025学年八年级上学期期中地理试题(解析版).pdf
- 大数据运维工程师岗位招聘考试试卷及答案.doc
- 广东省深圳市福田区八校2026届数学八年级第一学期期末教学质量检测模拟试题含解析.doc
- 广东省潮州市湘桥区城基初级中学2024-2025学年八年级上学期11月期中考试数学试题(解析版).pdf
- 广东省潮州市湘桥区城西中学2024-2025学年八年级上学期期中地理试题(解析版).pdf
最近下载
- Fluke_724(福禄克724)_温度校准器用户手册(中文翻译版).docx VIP
- 2024学年(上)厦门市九年级质量检测化学试题及答案.pdf VIP
- 2026人教英语八下单词批注 Unit 5.pdf
- 中联重科QUY80履带起重机技术介绍册.docx VIP
- 2025年安徽高中物理学业水平合格性考试卷试题(含答案详解).pdf VIP
- 小学六年级科学上册期末考试题及答案【汇编】.doc VIP
- 2026人教英语八下单词批注 Unit 4.pdf
- 五年级语文期末六大专项.pdf VIP
- 2024-2025学年湖北省襄阳市荆楚联盟八年级(上)期末数学试卷.pdf VIP
- 2026人教英语八下单词批注 Unit 3.pdf
原创力文档


文档评论(0)