CN119293514A 用于多语言任务的模型预训练方法和装置（连连银通电子支付有限公司）.docxVIP

下载本文档

0
0
约3.6万字
约 50页
2026-01-24 发布于重庆
举报

CN119293514A 用于多语言任务的模型预训练方法和装置（连连银通电子支付有限公司）.docx

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN119293514A(43)申请公布日2025.01.10

(21)申请号202411831139.0

(22)申请日2024.12.12

(71)申请人连连银通电子支付有限公司

地址310051浙江省杭州市滨江区越达巷

79号1号楼11楼

申请人连连(杭州)信息技术有限公司

(72)发明人王愚侯兴翠

GO6V10/80(2022.01)

GO6F18/25(2023.01)

GO6N3/0442(2023.01)

GO6N3/0455(2023.01)

GO6N3/0464(2023.01)

GO6N3/0895(2023.01)

(74)专利代理机构广州三环专利商标代理有限公司44202

专利代理师方秀琴

(51)Int.CI.

GO6FGO6V

18/214(2023.01)

10/774(2022.01)

40/289(2020.01)10/52(2022.01)

权利要求书4页

说明书19页附图3页

(54)发明名称

用于多语言任务的模型预训练方法和装置

(57)摘要

CN119293514A本申请提供了用于多语言任务的模型预训练方法和装置，涉及人工智能技术领域，方法包括：获取多模态训练数据集，训练数据集包括具有多语言内容的多个样本文本数据和多个样本图文对数据，涵盖通用领域和预设业务领域；基于多个样本图文对数据，对初始模型进行视觉特征和文本特征对齐的对比学习训练，在训练过程中冻结解码模块的模型参数并调整视觉编码器和投影模块的模型参数，至满足第一结束条件；基于多个样本图文对数据和多个样本文本数据，对满足第一结束条件的初始模型进行内容理解的约束训练，在训练过程中调整视觉编码器、投影模块和解码模块的模型参数，至满足第二结束

CN119293514A

获取多模态训练数据集和初始模型，训练数据集包括多个样

本文本数据和多个样本图文对数据，多个样本图文对数据和

多个样本文本数据包括多种语言内容，且多个样本图文对数

据包括通用领域的样本图文对数据和目标场景中预设业务领

域的样本图文对数据，多个样本文本数据包括预设业务领域

的文本数据，初始模型包括依次连接的视觉编码器、投影模

块和解码模块，解码模块是基于大语言模型构建的

基于多个样本图文对数据，对初始模型进行视觉特征和文本

特征对齐的对比学习训练，在训练过程中冻结解码模块的模

型参数并调整视觉编码器和投影模块的模型参数，至满足第

一结束条件

基于多个样本图文对数据和多个样本文本数据，对满足第一

结束条件的初始模型进行内容理解的约束训练，在训练过程

中调整视觉编码器、投影模块和解码模块的模型参数，至满

足第二结束条件

将满足第二结束条件的初始模型确定为目标模型：在训练过

程中，结合预设业务领域对应的目标词库对预设业务领域的

样本图文对数据中的文本和样本文本数据进行分词处理，以

作为投影模块的输入

S201

S203

S205

S207

CN119293514A权利要求书1/4页

1.一种用于多语言任务的模型预训练方法，其特征在于，所述方法包括：

获取多模态训练数据集和初始模型，所述训练数据集包括多个样本文本数据和多个样本图文对数据，所述多个样本图文对数据和所述多个样本文本数据包括多种语言内容，且所述多个样本图文对数据包括通用领域的样本图文对数据和目标场景中预设业务领域的样本图文对数据，所述多个样本文本数据包括所述预设业务领域的文本数据，所述初始模型包括依次连接的视觉编码器、投影模块和解码模块，所述解码模块是基于大语言模型构建的；

基于所述多个样本图文对数据，对所述初始模型进行视觉特征和文本特征对齐的对比学习训练，在训练过程中冻结所述解码模块的模型参数并调整所述视觉编码器和所述投影模块的模型参数，至满足第一结束条件；

基于所述多个样本图文对数据和所述多个样本文本数据，对满足所述第一结束条件的初始模型进行内容理解的约束训练，在训练过程中调整所述视觉编码器、所述投影模块和所述解码模块的模型参数，至满足第二结束条件；

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN119293514A 用于多语言任务的模型预训练方法和装置（连连银通电子支付有限公司）.docxVIP