基于多语言图片文字描述数据的多模态模型预训练方法.pdfVIP

  • 0
  • 0
  • 约1.02万字
  • 约 10页
  • 2023-12-09 发布于四川
  • 举报

基于多语言图片文字描述数据的多模态模型预训练方法.pdf

本发明公开了一种基于多语言图片文字描述数据的多模态模型预训练方法,其包括以下步骤:对训练数据集的原始文本信息内容进行翻译;对不同语言的文本信息分别进行掩码后输入到对应的文本编码器中预测被掩码的词,并计算被掩码的词和预测的词的交叉熵损失,对所有交叉熵损失求平均值作为最终的文本掩码损失;通过文本编码器产生各语言的文本信息对应的表征向量,再将多语言特征映射到统一的语义空间,得到多语言对比损失;通过图像编码器获得图像表征,进而计算图文对比损失;将三种损失叠加获得多模态模型的训练总损失;多模态模型通过反向

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN117196061A

(43)申请公布日2023.12.08

(21)申请号202311051719.3G06V10/774(2022.01)

文档评论(0)

1亿VIP精品文档

相关文档