CN118135297B 一种基于解码器视觉Transformer架构的图像分类方法（上海人工智能创新中心）.docxVIP

下载本文档

0
0
约1.31万字
约 19页
2026-01-19 发布于重庆
举报

CN118135297B 一种基于解码器视觉Transformer架构的图像分类方法（上海人工智能创新中心）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN118135297B(45)授权公告日2025.07.04

(21)申请号202410224735.6

(22)申请日2024.02.28

(65)同一申请的已公布的文献号申请公布号CN118135297A

(43)申请公布日2024.06.04

(73)专利权人上海人工智能创新中心

地址200232上海市徐汇区云锦路701号

37、38层

(72)发明人王家豪邵文琪陈锰钊张松阳陈恺乔宇罗平

(74)专利代理机构北京市诚辉律师事务所

11430

专利代理师耿慧敏

(51)Int.CI.

GO6V10/764(2022.01)

GO6V10/82(2022.01)

GO6V10/40(2022.01)

GO6N3/0455(2023.01)

GO6N3/0985(2023.01)

G06N3/048(2023.01)

(56)对比文件

CN114359622A,2022.04.15CN117194989A,2023.12.08审查员马名骏

权利要求书2页说明书6页附图3页

(54)发明名称

一种基于解码器视觉Transformer架构的图像分类方法

(57)摘要

CN118135297B本发明公开了一种基于解码器视觉Transformer架构的图像分类方法。该方法包括：获取目标图像；将所述目标图像输入到经训练的图像LLaMA模型，得到图像分类结果，其中所述图像LLaMA模型包括嵌入层、Transformer解码器和分类头，所述嵌入层用于对目标图像的图像块进行向量表示并嵌入可学习位置编码信息，获得嵌入序列，所述Transformer解码器包含多个图像LLaMA块，用于从所述嵌入序列中提取图像特征，进而传递至所述分类头进行图像分类。本发明第一次将视觉Transformer的架构和大语言模型的解码器架构对齐，并设计有效方案来完成构造纯解码器实现的视觉Transformer

CN118135297B

S110

构建图像LLaMA模型，该模型总体包括嵌入层、Transformer解码器和分类头

S120

利用设定的损失函数训练图像LLaMA模型

对于目标图像，利用经训练的图像LLaMA模型获得图像分类结果，其中所述嵌入层用于对目标图像的图像块进行向量表示并嵌入可学习位置编码信息，获得嵌入序列，所述Transformer解码器用于从所述嵌入序列中提取图像特征，进而

传递至所述分类头进行图像分类

-S130

CN118135297B权利要求书1/2页

1.一种基于解码器视觉Transformer架构的图像分类方法，包括以下步骤：

获取目标图像；

将所述目标图像输入到经训练的图像LLaMA模型，得到图像分类结果，所述图像LLaMA模型使用SwiGLU模块替换视觉转换块ViT中的多层感知器，使用均方根归一化RMSNorm替换所述视觉转换块ViT中的归一化层，使用因果自注意力机制替换所述视觉转换块ViT中的双向自注意力机制，使用旋转位置编码替换所述视觉转换块ViT中的可学习位置编码；

其中，所述图像LLaMA模型包括嵌入层、Transformer解码器和分类头，所述嵌入层用于对目标图像的图像块进行向量表示并嵌入可学习位置编码信息，获得嵌入序列，所述Transformer解码器包含多个图像LLaMA块，用于从所述嵌入序列中提取图像特征，进而传递至所述分类头进行图像分类；其中，所述图像LLaMA块包含第一均方根归一化层、因果自注意机制模块、第二均方根归一化层和SwiGLU模块；

其中，所述嵌入层输出的嵌入序列采用后序列类令牌，将类标记后置于整个序列的末

端；

其中，所述因果自注意机制模块采用旋转位置编码结合软掩码来计算注意力值，其中所述旋转位置编码将每个位置编码为一个旋转矢量，以集成相对位置信息，并且将所述软掩码设置为双向自注意力掩码和因果注意力掩码的线性组合。

2.根据权利要求1所述的方法，其特征在于，所述因果自注意机制模块执行以下计算过程：

利用自注意力机制得到注意力矩阵：

将注意力矩阵乘以软掩码S:0=(Softmax(A)⊙S)·W(x)

其中，软掩码S的计算过程是：S=αB+(1-α)C

Bi,j=

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN118135297B 一种基于解码器视觉Transformer架构的图像分类方法（上海人工智能创新中心）.docxVIP