网站大量收购独家精品文档,联系QQ:2885784924

8组-预训练语言模型.pptxVIP

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

预训练语言模型与应用小组成员:刘东阳 赵董成 张靖宇徐志涛 田雄辉 徐宇航

目录CONTENTS1预训练语言模型介绍4GPT3.0预训练语言模型2ELMo预训练语言模型3BERT预训练语言模型5预训练语言模型最新进展6预训练语言模型的应用

预训练语言模型介绍1

什么是语言模型Sentence1:美联储主席本·伯南昨天告诉媒体7000亿美元的救助资金Sentence2:美主席联储本·伯南告诉昨天媒体7000亿美元的资金救助Sentence3:美主车席联储本·克告诉昨天公司媒体7000伯南亿美行元哪个句子更像一个合理的句子?如何量化评估这句话的“合理程度”?语言模型:

什么是预训练模型预训练模型就是利用大量的未标注文本数据,先学了一个好的表示,然后再代入到其他任务中。数学语文英语化学…物理Soeasy

为什么引入预训练模型在大语料下预训练的模型可以学习到universallanguagerepresentations,来帮助下游任务。PTMs提供了一个更好的初始化模型,可以提高目标任务的效果和加速收敛。PTMs可以看做是一种正则,防止模型在小数据集上的过拟合。

预训练模型发展历程从WordEmbedding到BertNeurallanguageWordEmbeddingPretrainedlanguagemodels·第一个神经语言模型(NNLM)词向量·word2vec·GloVe预训练语言模型·ELMO·OpenAIGPT·Bert200120132018

神经网络语言模型(NNLM)跟据前n个单词,通过前馈神经网络预测下一个单词

WordEmbeddingCBOWSkip-gramCBOWSkip-gram

WordEmbeddingWordEmbedding存在的主要问题…TheBankhasplantobranchthroughoutthecountry……TheyThrottledthewatchmanandrobbedthebank…词向量是静态固定的,无法根据上下文语义调整向量

预训练语言模型-ELMO背景Wordembedding本质上属于静态模型,词向量是静态的,无法跟据上下文语义而改变

预训练语言模型-ELMO思想2018年由AllenAI提出。

预训练语言模型-Bert背景·Transformer在机器翻译是任务上取得了巨大成功,而且可以做的很深。·NLP的许多任务都存在标注数据少的问题,挖掘无标注数据十分必要。

预训练语言模型-Bert思想2018年Google提出。

预训练语言模型-GPT背景·目前大多数深度学习依靠大量人工标注的信息。·在大规模语料监督情况下,无监督学习的方式学习到的表示也可提供显著的性能提升。·一个对文本有效地抽象方法可以减轻NLP对有监督学习的依赖。

预训练语言模型-GPTGPTOpenAI在2018年首次提出,随后相继更新了GPT2.0和3.0版本。T1TrmE1T2TNTrmE2EN…GPTGPT3.0更大的数据集更大的参数量更优的性能

预训练语言模型发展趋势更强大。更大的数据,更多的参数。更小巧。把模型做的更小,更快。更优秀。功能更多,性能更高,训练更快。更聪明。如何引入外部知识。更能干。预训练语言模型如何应用到NLP以外的领域。

ELMo预训练语言模型2

RNNh0h1h2h3x1x2x3y??共享权值序列化数据

LSTM(LongShort-termMemoryNetwork)遗忘门内部记忆单元输入门输出门

词的表示One-hot编码Bird,cat,dogJump,run,walkpear,appleWordclasscWordembedding

ELMO(EmbeddingfromLanguageModel)Contextualizedwordembedding一词多义→结合上下文推测通过训练一个反向的LSTM来实现考虑后文embedding拼接正向逆向

ELMO(EmbeddingfromLanguageModel)为什么可以达到区分同义词的效果?在ELMo第一阶段训练完成之后,将句子输入模型中在线提取各层embedding的时候,每个单词(token)对应两边LSTM网络的对应节点,那两个节点得到的embedding是动态改变的,会受到上下文单词的影响,进而会强化某种语义,弱化其它语义,这样就达到区分多义词的效果了。

ELMO(EmbeddingfromLanguageModel)缺点:双向LSTM是两个单向LSTM拼接ELMO使用了LSTM作为特征抽取器,而非T

文档评论(0)

说明书库 + 关注
实名认证
文档贡献者

24小时提供说明书查找服务。

1亿VIP精品文档

相关文档