自然语言处理基础及应用课件 (9).pptxVIP

下载本文档

0
0
约8.61千字
约 43页
2025-12-17 发布于广东
举报
版权申诉

自然语言处理基础及应用课件 (9).pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

高等学校自然语言处理课程教材（这里根据情况修改）自然语言处理基础应用李妍吕慧周庆国/主编李芬芳多拉/副主编

第9章预训练语言模型高等学校自然语言处理课程教材CONTENTS目录9.19.29.39.4预训练语言模型概述GPT模型BERT模型BERT模型变体9.5其它预训练语言模型

本章学习目标第9章预训练语言模型了解预训练语言模型的基本概念、发展历史、分类；熟练掌握主流预训练模型的理论知识与模型架构。

9.1预训练语言模型概述预训练语言模型是一种深度学习的模型，其目标是对大量未标注的语言数据进行训练，自动学习并捕捉语言的结构、语法和语义规则。预训练语言模型通常利用数据的内在结构和统计规律，并通过预测下一个词语、掩码词语等任务来进行训练，从而提高模型对于语言的理解和表达能力。第9章预训练语言模型预训练的概念最早是在计算机视觉领域提出的。2012年，Hinton等人在论文ImagenetClassificationwithDeepConvolutionalNeuralNetworks中提出了深度学习中的无监督预训练技术，即先在大规模无标注数据上进行预训练，再在少量有标注数据上进行微调训练以提高模型性能。这一思想在计算机视觉领域中得到了广泛应用，并取得了非常好的效果。随着深度学习应用范围越来越广，预训练技术也被引入到了NLP领域中，并取得了良好的效果。9.1.1预训练介绍

9.1预训练语言模型概述第9章预训练语言模型9.1.2预训练语言模型发展史深度神经网络的出现提供了很好的语言表示方法，即分布式表示。分布式表示是文本的一种表示方式，其核心思想是将一个词表示为一个固定长度的向量，这个向量可以被看作是该词在一个高维空间内的坐标。在这个高维空间中，同义词或相关词的向量会更加接近，而不相关词的向量则会远离。这种表示方法能够很好地解决词语“鸿沟”问题，即不同词汇之间存在多样性和歧义性的问题，是一种统计意义上的分布。图9-1自然语言表示学习发展路径

9.1预训练语言模型概述第9章预训练语言模型9.1.2预训练语言模型发展史虽然自然语言表示研究已经取得了较好的解决方案，但是在NLP领域仍然面临其他问题亟待解决。与有监督数据相比，NLP领域存在大量的无监督文本数据集，如果能够充分利用和挖掘这些数据的特点，并进行模型训练，那么势必能够提升模型的性能以及增强下游任务的表现。而预训练语言模型就能够在大规模语料上进行无监督训练，学习通用的语言表征，有助于改善下游任务的性能表现。图9-2预训练语言模型发展图

9.1预训练语言模型概述第9章预训练语言模型9.1.3预训练语言模型的分类预训练语言模型是近年来NLP领域的研究热点之一，从最初的Word2Vec模型、到后来的基于Transformer的语言模型，再到现在的GPT、BERT、T5等大规模预训练模型，这些模型的出现和发展，极大地推动了NLP技术的进步。而不同预训练模型之间也有着一定的差异性，按预训练任务分为自回归（autoregressive）和自编码（autoencoder）两种类型。1、自回归2、自编码自回归可以类比为早期的统计语言模型（statisticallanguagemodel），也就是根据上文预测下一个单词，或者根据下文预测前面的单词。自编码通常被称为降噪自编码（denosingautoencoder）模型，可以在输入中随机掩盖一个单词（相当于加入噪声），将其替换为[MASK]标签。

9.1预训练语言模型概述第9章预训练语言模型9.1.3预训练语言模型的分类依据是否上下文相关、模型的核心结构、任务类型、模型扩展四种不同的分类标准，对预训练语言模型还可以进行以下分类。1、语言表示是否与上下文相关。2、模型的核心结构。3、任务类型。4、模型扩展。

第9章预训练语言模型高等学校自然语言处理课程教材CONTENTS目录9.19.29.39.4预训练语言模型概述GPT模型BERT模型BERT模型变体9.5其它预训练语言模型

9.2GPT模型2018年，OpenAI在论文ImprovingLanguageUnderstandingbyGenerativePre-Training中提出了一种半监督学习方法GPT。GPT采用无监督学习的预训练方法，充分利用大量未标注的文本数据，再利用有监督学习的微调来适配具体的NLP任务（如机器翻译、序列标注等），并在12个NLP任务中刷新了9个记录。与ELMo模型不同，GPT使用多个Transformer解码器的堆叠组成模型结构，相对BiLSTM而言，Transformer更加鲁棒，在文本长距离依赖