知识表示与处理(2025-第13次课 预训练语言模型).pdfVIP

知识表示与处理(2025-第13次课 预训练语言模型).pdf

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

•预训练语言模型(Pre-trainedLanguageModels,PLMs)是自然语言处理(

NLP)领域的一项核心突破,它通过在大规模文本语料上进行无监督或自监督学

习,学习语言的通用表示,然后可被微调(fine-tuned)用于各种下游任务(如

文本分类、问答、机器翻译、摘要生成等)。PLMs极大地推动了NLP领域的发

展,显著提高了模型在各类任务上的性能。

•预训练语言模型通过“通用语言知识”的学习,实现了NLP领域的范式变革。从

ELMo到BERT、GPT,再到如今的千亿参数大模型,PLMs不仅在学术研究中占

据主导地位,也深刻影响了工业应用(如搜索引擎、智能客服、内容创作)。

•预训练语言模型(Pre-trainedLanguageModels,PLMs)的兴起不仅是技术进

步,更深刻地重塑了自然语言处理乃至整个人工智能领域的研究范式、工程实践

和应用逻辑。

PLMs的核心思想

Ø“预训练+微调”(Pre-train+Fine-tune)范式:

ü预训练阶段:

在大量无标注文本(如维基百科、网络爬虫数据等)上,通过设计自监

督任务训练模型学习词、句、篇章的通用语言表示。

ü微调阶段:

将预训练好的模型在特定下游任务(如情感分析、命名实体识别)的标

注数据上进行参数微调,适配具体任务。

Ø这种范式避免了为每个任务从零开始训练模型,大幅提升了数据效率和模型

泛化能力。

从静态到动态——词向量的进化之路

ELMo的革命性贡献就在于提出了上下文相关的词向量概念。它不再为每个单词生

成单一向量,而是根据单词所处的上下文动态生成向量表示。

神经网络基础

Ø序列模型(SequenceModel)

ü用于解决输入数据为序列形式的问题。

ü目标:发现数据中的模式和依赖关系,进而进行预测、分类,甚至生成新的序列。

ü应用场景:

•自然语言处理(NLP):处理文本序列(如机器翻译、情感分析、聊天机器人)。

•语音识别:音频转文本音乐生成:生成音符序列。

•手势识别:处理连续的手势动作序列(视频帧序列)。

•时间序列分析:分析按时间顺序排列的数据点序列(如股票价格、传感器读数、

天气预报),进行预测或异常检测。

神经网络基础

Ø循环神经网络(RecurrentNeuralNetworks,RNN)

ü用于处理序列数据,具有反馈环路,能够让信息在不同时间步上保留。

üRNN的核心特点:具有维持内部状态(通常称为隐藏状态或记忆)的能力,这种状

态会随着网络处理输入序列中的每个元素而更新。然后,该隐藏状态会作为输入传递

给网络的下一个时间步,使模型能够捕捉数据中随时间分布的依赖关系和模式。

神经网络基础

Ø循环神经网络(RecurrentNeuralNetworks,RNN)

ü长期依赖失效:当序列较长时(如超过10个时间步),早期时刻的梯度几乎为零

→网络无法更新早期层的权重

→无法学习远距离的序列关系

示例:在句子“IgrewupinChina...(20个词后)...soIspeakfluent

Chinese”中,RNN难以关联China和Chinese。

神经网络基础

Ø长短期记忆网络(LongShort-TermMemory,LSTM)

ü使用专门的记忆单

文档评论(0)

186****7161 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档