一种自适应深度Transformer语言模型的预训练方法.pdfVIP

下载本文档

4
0
约1.51万字
约 12页
2023-11-01 发布于四川
举报

一种自适应深度Transformer语言模型的预训练方法.pdf

本发明公开了一种自适应深度Transformer语言模型的预训练方法，包括以下步骤：S1，使用无监督的分词工具SentencePiece进行分词和创建词典；S2，对输入的序列进行嵌入操作；S3，将执行嵌入操作之后的输入序列输入SandwichTransformer主干网络，并注入绝对位置编码和相对位置编码信息；S4，利用复杂度自学习和估计模块估计输入复杂度，然后将复杂度转换为自适应深度Transformer层中旁路门的权值；S5，使用交叉熵损失对模型进行优化。本发明使用具有语言建模损失的估计器模

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 116976415 A (43)申请公布日 2023.10.31 (21)申请号 202310702945.7 G06F 40/242 (2020.01)

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

一种自适应深度Transformer语言模型的预训练方法.pdfVIP

一种自适应深度Transformer语言模型的预训练方法.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档