清华社教学课件深入浅出大语言模型第四章 GPT模型(二).pptxVIP

  • 1
  • 0
  • 约小于1千字
  • 约 7页
  • 2026-05-25 发布于广东
  • 举报

清华社教学课件深入浅出大语言模型第四章 GPT模型(二).pptx

第四章GPT模型(二)马少平清华大学计算机系面向人工智能初学者的通俗讲座《计算机是如何实现智能的》之B站获取PPT跟我学AI公众号

4.3GPT-2模型GPT-1模型回顾GPT-1在预训练的基础上通过微调处理下游任务取得了非常好的效果需要特定下游任务的数据性能方面GPT-1的性能随模型规模(层数)增加而增加预训练模型具有求解自然语言处理任务的能力零样本学习(Zero-shotLearning)进一步加大模型规模和数据规模是否会提高预训练模型的性能呢?为此提出了GPT-2模型

4.3.1GPT-2模型的基本构成采用前置层归一化方法提高模型训练的稳定性提高模型训练的收敛速度在最后一个解码层之后添加了一个层归一化相当于后置归一化。输入序列长度:1024GPT-1输入序列长度:512测试了4个不同规模的模型最后一层时

4.3.1GPT-2模型的基本构成参数量层数词向量维度117M12768345M241024762M3612801542M481600WebText数据集:40G来自网络,保留3次及以上的点赞数据GPT-1参数量:117M数据量:4.5G

4.3.2GPT-2性能评价不同参数下预训练模型在多个语言模型类任务上的表现GPT-2在7个任务中取得了最好成绩,只有1BW任务不如SOTA在1BW任务中,测试集中约有13.19%的数据存在于训练集中,而GPT-2

文档评论(0)

1亿VIP精品文档

相关文档