清华社教学课件深入浅出大语言模型第五章 BERT模型(一).pptxVIP

  • 2
  • 0
  • 约1.74千字
  • 约 16页
  • 2026-05-25 发布于广东
  • 举报

清华社教学课件深入浅出大语言模型第五章 BERT模型(一).pptx

第五章BERT模型(一)马少平清华大学计算机系面向人工智能初学者的通俗讲座《计算机是如何实现智能的》之B站获取PPT跟我学AI公众号

什么是BERT模型?GPT-1发表不久谷歌发布BERT模型BidirectionalEncoderRepresentationsfromTransformers基于Transformer的双向编码器表示与GPT-1的不同GPT-1是单向、解码器模型BERT是双向、编码器模型单向与双向模型我今天没有去上班,因为我()了。因为我()了,今天没有去上班。

单向模型与双向模型实质就是编码器与解码器的区别BERT模型采用编码器模型更强的语言理解能力

5.1BERT模型架构

5.1BERT模型架构文本预测GPT-1:预测下一个单词BERT:预测中间的某个单词因为我()了,今天没有去上班BERT采用编码器模型以牺牲模型生成能力为代价提高模型语义理解能力

5.1BERT模型架构?模型L层数H向量维度A注意力头数N总参数量BERTbas1亿BERTlarge241024163.4亿BERTbase参数量与GPT-1相当,以便于比较BERTlarge加大参数量,验证大参数量下的性能

BERT的性能测试第一行:几个典型的自然语言处理下游任务及微调时的训练样本数第二行:GPT-1模型提出之前其他方法的最好性能第

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档