清华社教学课件深入浅出大语言模型第四章 GPT模型(一).pptxVIP

  • 1
  • 0
  • 约2.19千字
  • 约 23页
  • 2026-05-25 发布于广东
  • 举报

清华社教学课件深入浅出大语言模型第四章 GPT模型(一).pptx

第四章GPT模型(一)马少平清华大学计算机系面向人工智能初学者的通俗讲座《计算机是如何实现智能的》之B站获取PPT跟我学AI公众号

GPT模型GPT:生成式预训练GenerativePre-TrainingGenerativePre-trainingTransformerGPT模型开启了预训练大语言模型时代GPT(GPT-1)GPT-2GPT-3GPT-3.5ChatGPT…

4.1预训练模型定义:预训练模型是一种在大规模数据集上进行预先训练的机器学习模型。通过预训练的方式学习数据中的通用特征和模式,从而铺捉到语言、图像等各种数据类型的一般规律和语义信息。预训练模型可以作为初始化模型,在下游任务中进行微调,以适应具体的应用场景,减少对特定任务数据的依赖,提高模型的训练效率和性能。举例:ImageNet通过在ImageNet上进行训练得到一个图像处理的预训练模型利用下游任务数据做微调神经网络语言模型通过预训练得到词向量

4.1预训练模型

4.2GPT-1模型两阶段训练模型预训练阶段与具体任务无关学习通用的语法、语义等基础知识掌握良好的语言能力通过训练语言模型实现微调阶段使用具体任务相关的人工标注数据对模型进行微调针对具体的自然语言处理任务(下游任务)进行训练使得模型具有求解特定任务的能力GPT-1:特定任务求解问题

4.2.1,GPT-1的基本构成GPT-1的本质

文档评论(0)

1亿VIP精品文档

相关文档