- 0
- 0
- 约1.31万字
- 约 19页
- 2026-01-19 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN118135297B(45)授权公告日2025.07.04
(21)申请号202410224735.6
(22)申请日2024.02.28
(65)同一申请的已公布的文献号申请公布号CN118135297A
(43)申请公布日2024.06.04
(73)专利权人上海人工智能创新中心
地址200232上海市徐汇区云锦路701号
37、38层
(72)发明人王家豪邵文琪陈锰钊张松阳陈恺乔宇罗平
(74)专利代理机构北京市诚辉律师事务所
11430
专利代理师耿慧敏
(51)Int.CI.
GO6V10/764(2022.01)
GO6V10/82(2022.01)
GO6V10/40(2022.01)
GO6N3/0455(2023.01)
GO6N3/0985(2023.01)
G06N3/048(2023.01)
(56)对比文件
CN114359622A,2022.04.15CN117194989A,2023.12.08审查员马名骏
权利要求书2页说明书6页附图3页
(54)发明名称
一种基于解码器视觉Transformer架构的图像分类方法
(57)摘要
CN118135297B本发明公开了一种基于解码器视觉Transformer架构的图像分类方法。该方法包括:获取目标图像;将所述目标图像输入到经训练的图像LLaMA模型,得到图像分类结果,其中所述图像LLaMA模型包括嵌入层、Transformer解码器和分类头,所述嵌入层用于对目标图像的图像块进行向量表示并嵌入可学习位置编码信息,获得嵌入序列,所述Transformer解码器包含多个图像LLaMA块,用于从所述嵌入序列中提取图像特征,进而传递至所述分类头进行图像分类。本发明第一次将视觉Transformer的架构和大语言模型的解码器架构对齐,并设计有效方案来完成构造纯解码器实现的视觉Transformer
CN118135297B
S110
S110
构建图像LLaMA模型,该模型总体包括嵌入层、Transformer解码器和分类头
S120
利用设定的损失函数训练图像LLaMA模型
对于目标图像,利用经训练的图像LLaMA模型获得图像分类结果,其中所述嵌入层用于对目标图像的图像块进行向量表示并嵌入可学习位置编码信息,获得嵌入序列,所述Transformer解码器用于从所述嵌入序列中提取图像特征,进而
传递至所述分类头进行图像分类
-S130
CN118135297B权利要求书1/2页
2
1.一种基于解码器视觉Transformer架构的图像分类方法,包括以下步骤:
获取目标图像;
将所述目标图像输入到经训练的图像LLaMA模型,得到图像分类结果,所述图像LLaMA模型使用SwiGLU模块替换视觉转换块ViT中的多层感知器,使用均方根归一化RMSNorm替换所述视觉转换块ViT中的归一化层,使用因果自注意力机制替换所述视觉转换块ViT中的双向自注意力机制,使用旋转位置编码替换所述视觉转换块ViT中的可学习位置编码;
其中,所述图像LLaMA模型包括嵌入层、Transformer解码器和分类头,所述嵌入层用于对目标图像的图像块进行向量表示并嵌入可学习位置编码信息,获得嵌入序列,所述Transformer解码器包含多个图像LLaMA块,用于从所述嵌入序列中提取图像特征,进而传递至所述分类头进行图像分类;其中,所述图像LLaMA块包含第一均方根归一化层、因果自注意机制模块、第二均方根归一化层和SwiGLU模块;
其中,所述嵌入层输出的嵌入序列采用后序列类令牌,将类标记后置于整个序列的末
端;
其中,所述因果自注意机制模块采用旋转位置编码结合软掩码来计算注意力值,其中所述旋转位置编码将每个位置编码为一个旋转矢量,以集成相对位置信息,并且将所述软掩码设置为双向自注意力掩码和因果注意力掩码的线性组合。
2.根据权利要求1所述的方法,其特征在于,所述因果自注意机制模块执行以下计算过程:
利用自注意力机制得到注意力矩阵:
将注意力矩阵乘以软掩码S:0=(Softmax(A)⊙S)·W(x)
其中,软掩码S的计算过程是:S=αB+(1-α)C
Bi,j=
您可能关注的文档
- CN116382331B 多无人机快速调度方法、装置、设备及可读存储介质 (武汉大学).docx
- CN116405357B 一种菲涅尔域零导频ocdm水声通信的载波频偏估计补偿方法 (上海交通大学).docx
- CN116408034B 一种改性丁苯乳液的合成设备及合成方法 (浙江嘉晟新材料有限公司).docx
- CN116417060B 蛋白质功能模块的挖掘方法、计算机设备和存储介质 (中国科学院深圳先进技术研究院).docx
- CN116424531B 一种无人潜器的自动坐底控制方法 (中国船舶重工集团公司第七0七研究所九江分部).docx
- CN116433548B 一种基于多级信息提取的高光谱与全色图像融合方法 (西安电子科技大学).docx
- CN116433647B 一种基于多任务学习的绝缘子图像质量评价方法及系统 (华北电力大学(保定)).docx
- CN116438531B 利用基于浏览器的安全pin认证的did系统及其控制方法 (软件帝国株式会社).docx
- CN116438873B 无线通信的方法和终端设备 (Oppo广东移动通信有限公司).docx
- CN116454967B 一种电网新能源消纳能力评估方法及装置 (国网冀北电力有限公司电力科学研究院).docx
- 25-26学年政治(部编版)选择性必修第二册课件:第1单元 周清1 民法中的人身权及财产权.pptx
- 25-26学年政治(部编版)选择性必修第二册课件:1.4.1 权利保障 于法有据.pptx
- 2025北京丰台区高二(上)期中地理(A卷)含答案.docx
- 2025北京三帆中学初三(上)开学考英语试题含答案.docx
- 2025北京一零一中初三9月月考语文试题含答案.docx
- 2025北京海淀区初三(上)期中道法试题含答案.docx
- 2025北京丰台区高一(上)期中政治(A卷)含答案.docx
- 25-26学年政治统编版必修4课件:3.3 唯物辩证法的实质与核心.pptx
- 25-26学年政治统编版必修4课件:7.2 正确认识中华传统文化.pptx
- 湖北省部分高中2026届高三上学期二模联考 历史试卷.docx
最近下载
- 上海市黄浦区2024-2025学年八年级上学期期末数学试卷(含答案).pdf VIP
- 69095419_A-Aquaeco直流变频水地源(热泵)机组安装操作维护手册20230310-A.pdf VIP
- 部编教材五年级下册语文教案(全册).pdf VIP
- 2022小班长年终总结范文(系列5篇).docx VIP
- 广东省深圳市宝安区2022-2023学年六年级上学期质量监测用卷科学期末试卷.docx VIP
- 做好应急保电预案(3篇).docx
- 哈工大计算机组成原理第六章课件唐朔飞老师.ppt VIP
- 人教版六年级上册语文期末考试卷绝对自己编的_有用的老师可以下载_免费.doc VIP
- 探秘坚果与干果中的隐匿威胁:真菌毒素污染及风险深度剖析.docx VIP
- 森林防火工程技术标准范文.docx VIP
原创力文档

文档评论(0)