基于多层多注意力迁移的知识蒸馏方法、装置及设备.pdfVIP

  • 7
  • 0
  • 约1.58万字
  • 约 14页
  • 2023-06-20 发布于四川
  • 举报

基于多层多注意力迁移的知识蒸馏方法、装置及设备.pdf

本发明涉及知识蒸馏技术领域,公开了一种基于多层多注意力迁移的知识蒸馏方法、装置及设备,所述方法包括:构建未训练的学生网络和完成预训练的教师网络;将训练数据输入学生网络和教师网络中获得学生网络各个中间层的第一输出特征集合、教师网络各个中间层的第二输出特征集合;基于第一输出特征集合和第二输出特征集合确定蒸馏损失函数;基于蒸馏损失函数对学生网络进行迭代训练。本发明通过在深度神经网络不同的中间层中探索不同种类的注意力知识进行迁移,以此有效的指导了学生网络的学习,提升了学生网络的性能和泛化能力。

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 113326941 A (43)申请公布日 2021.08.31 (21)申请号 202110713825.8 (22)申请日 2021.06.25 (71)申请人 江苏大学 地址 21

文档评论(0)

1亿VIP精品文档

相关文档