清华社教学课件深入浅出大语言模型第五章 BERT模型（一）.pptxVIP

下载本文档

2
0
约1.74千字
约 16页
2026-05-25 发布于广东
举报

清华社教学课件深入浅出大语言模型第五章 BERT模型（一）.pptx

第五章BERT模型（一）马少平清华大学计算机系面向人工智能初学者的通俗讲座《计算机是如何实现智能的》之B站获取PPT跟我学AI公众号

什么是BERT模型？GPT-1发表不久谷歌发布BERT模型BidirectionalEncoderRepresentationsfromTransformers基于Transformer的双向编码器表示与GPT-1的不同GPT-1是单向、解码器模型BERT是双向、编码器模型单向与双向模型我今天没有去上班，因为我（）了。因为我（）了，今天没有去上班。

单向模型与双向模型实质就是编码器与解码器的区别BERT模型采用编码器模型更强的语言理解能力

5.1BERT模型架构

5.1BERT模型架构文本预测GPT-1：预测下一个单词BERT：预测中间的某个单词因为我（）了，今天没有去上班BERT采用编码器模型以牺牲模型生成能力为代价提高模型语义理解能力

5.1BERT模型架构?模型L层数H向量维度A注意力头数N总参数量BERTbas1亿BERTlarge241024163.4亿BERTbase参数量与GPT-1相当，以便于比较BERTlarge加大参数量，验证大参数量下的性能

BERT的性能测试第一行：几个典型的自然语言处理下游任务及微调时的训练样本数第二行：GPT-1模型提出之前其他方法的最好性能第

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

清华社教学课件深入浅出大语言模型第五章 BERT模型（一）.pptxVIP