- 4
- 0
- 约1.51万字
- 约 12页
- 2023-11-01 发布于四川
- 举报
本发明公开了一种自适应深度Transformer语言模型的预训练方法,包括以下步骤:S1,使用无监督的分词工具SentencePiece进行分词和创建词典;S2,对输入的序列进行嵌入操作;S3,将执行嵌入操作之后的输入序列输入SandwichTransformer主干网络,并注入绝对位置编码和相对位置编码信息;S4,利用复杂度自学习和估计模块估计输入复杂度,然后将复杂度转换为自适应深度Transformer层中旁路门的权值;S5,使用交叉熵损失对模型进行优化。本发明使用具有语言建模损失的估计器模
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 116976415 A
(43)申请公布日 2023.10.31
(21)申请号 202310702945.7 G06F 40/242 (2020.01)
您可能关注的文档
最近下载
- 12J1工程做法图集标准.docx VIP
- 被害妄想症的护理措施.pptx VIP
- 被害妄想症护理措施.pptx VIP
- T_ACEF 178-2024 城镇给水厂碳排放核算与评价方法.pdf VIP
- 2026西藏开发投资集团招聘面试题及答案.doc VIP
- 专题二 修辞手法赏析-小升初新七年级语文衔接讲义(统编版2024).docx VIP
- 2026年湖南省中考历史备考全攻略 (知识点归纳,必考知识点 真题模拟试卷及解析).docx VIP
- 一种大型流道钢衬多管节连续吊装方法.pdf VIP
- 商业健康保险创新药品目录(2025年).pdf VIP
- 2025年《客户关系管理》期末考试试卷附答案 .pdf VIP
原创力文档

文档评论(0)