8组-预训练语言模型.pptxVIP

下载本文档

1
0
约6.01千字
约 65页
2025-03-18 发布于山东
举报
版权申诉

8组-预训练语言模型.pptx

1、本文档共65页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

预训练语言模型与应用小组成员：刘东阳赵董成张靖宇徐志涛田雄辉徐宇航

目录CONTENTS1预训练语言模型介绍4GPT3.0预训练语言模型2ELMo预训练语言模型3BERT预训练语言模型5预训练语言模型最新进展6预训练语言模型的应用

预训练语言模型介绍1

什么是语言模型Sentence1:美联储主席本·伯南昨天告诉媒体7000亿美元的救助资金Sentence2:美主席联储本·伯南告诉昨天媒体7000亿美元的资金救助Sentence3:美主车席联储本·克告诉昨天公司媒体7000伯南亿美行元哪个句子更像一个合理的句子？如何量化评估这句话的“合理程度”？语言模型：

什么是预训练模型预训练模型就是利用大量的未标注文本数据，先学了一个好的表示，然后再代入到其他任务中。数学语文英语化学…物理Soeasy

为什么引入预训练模型在大语料下预训练的模型可以学习到universallanguagerepresentations，来帮助下游任务。PTMs提供了一个更好的初始化模型，可以提高目标任务的效果和加速收敛。PTMs可以看做是一种正则，防止模型在小数据集上的过拟合。

预训练模型发展历程从WordEmbedding到BertNeurallanguageWordEmbeddingPretrainedlanguagemodels·第一个神经语言模型（NNLM）词向量·word2vec·GloVe预训练语言模型·ELMO·OpenAIGPT·Bert200120132018

神经网络语言模型（NNLM）跟据前n个单词，通过前馈神经网络预测下一个单词

WordEmbeddingCBOWSkip-gramCBOWSkip-gram

WordEmbeddingWordEmbedding存在的主要问题…TheBankhasplantobranchthroughoutthecountry……TheyThrottledthewatchmanandrobbedthebank…词向量是静态固定的，无法根据上下文语义调整向量

预训练语言模型-ELMO背景Wordembedding本质上属于静态模型，词向量是静态的，无法跟据上下文语义而改变

预训练语言模型-ELMO思想2018年由AllenAI提出。

预训练语言模型-Bert背景·Transformer在机器翻译是任务上取得了巨大成功，而且可以做的很深。·NLP的许多任务都存在标注数据少的问题，挖掘无标注数据十分必要。

预训练语言模型-Bert思想2018年Google提出。

预训练语言模型-GPT背景·目前大多数深度学习依靠大量人工标注的信息。·在大规模语料监督情况下，无监督学习的方式学习到的表示也可提供显著的性能提升。·一个对文本有效地抽象方法可以减轻NLP对有监督学习的依赖。

预训练语言模型-GPTGPTOpenAI在2018年首次提出，随后相继更新了GPT2.0和3.0版本。T1TrmE1T2TNTrmE2EN…GPTGPT3.0更大的数据集更大的参数量更优的性能

预训练语言模型发展趋势更强大。更大的数据，更多的参数。更小巧。把模型做的更小，更快。更优秀。功能更多，性能更高，训练更快。更聪明。如何引入外部知识。更能干。预训练语言模型如何应用到NLP以外的领域。

ELMo预训练语言模型2

RNNh0h1h2h3x1x2x3y??共享权值序列化数据

LSTM(LongShort-termMemoryNetwork)遗忘门内部记忆单元输入门输出门

词的表示One-hot编码Bird,cat,dogJump,run,walkpear,appleWordclasscWordembedding

ELMO(EmbeddingfromLanguageModel)Contextualizedwordembedding一词多义→结合上下文推测通过训练一个反向的LSTM来实现考虑后文embedding拼接正向逆向

ELMO(EmbeddingfromLanguageModel)为什么可以达到区分同义词的效果？在ELMo第一阶段训练完成之后，将句子输入模型中在线提取各层embedding的时候，每个单词(token)对应两边LSTM网络的对应节点，那两个节点得到的embedding是动态改变的，会受到上下文单词的影响，进而会强化某种语义，弱化其它语义，这样就达到区分多义词的效果了。

ELMO(EmbeddingfromLanguageModel)缺点：双向LSTM是两个单向LSTM拼接ELMO使用了LSTM作为特征抽取器，而非T

您可能关注的文档

文档评论（0）

说明书库 + 关注: 实名认证

文档贡献者

24小时提供说明书查找服务。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

8组-预训练语言模型.pptxVIP