第2章 大模型基础.pptx

  1. 1、本文档共86页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;;语言模型是自然语言处理领域的基础任务和核心问题,其目标是对自然语言的概率分布建模。大量的研究从n元语言模型、神经语言模型以及预训练语言模型等不同角度开展了一系列工作。这些研究在不同阶段对自然语言处理任务有重要作用。随着基于谷歌Transformer的各类语言模型的发展及预训练微调范式在自然语言处理各类任务中取得突破性进展,从OpenAI发布GPT-3开始,对大语言模型的研究逐渐深入。虽然大模型的参数量巨大,通过有监督微调和强化学习能够完成非常多的任务,但是其基础理论仍然离不开对语言的建模。;;PART01;语言模型起源于语音识别。输入一段音频数据,语音识别系统通常会生成多个句子作为候选,判断哪个句子更合理?这就需要用到语言模型对候选句子进行排序。语言模型的应用范围早已扩展到机器翻译、信息检索、问答、文摘等众多自然语言处理领域。;语言模型是这样一个模型:对于任意的词序列,它能够计算出这个序列是一句话的概率。例如,词序列A:“这个网站|的|文章|真|水|啊”,这个明显是一句话,一个好的语言模型也会给出很高的概率。再看词序列B:“这个网站|的|睡觉|苹果|好快”,这明显不是一句话,如果语言模型训练的好,那么序列B的概率就会很小。;于是,给出语言模型的较为正式的定义。假设我们要为中文创建一个语言模型,V表示词典,V={猫,狗,机器,学习,语言,模型,...},wi∈V。语言模型就是这样一个模型:给定词典V,能够计算出任意单词序列w1,w2,...,wn是一句话的概率p(w1,w2,...,wn),其中,p≥0。

语言模型中计算p(w1,w2,...,wn)的最简单方法是数数,假设训练集中共有N个句子,数一下在训练集中(w1,w2,...,wn)出现的次数,不妨假定为n,则p(w1,w2,...,wn)=n/N。可以想象出这个模型的预测能力几乎为0,一旦单词序列没有在训练集中出现过,模型的输出概率就是0。;语言模型的另一种等价定义是:能够计算p(wi|w1,w2,...,wi-1)的模型就是语言模型。

从文本生成角度来看,也可以给出如下的语言模型定义:给定一个短语(一个词组或一句话),语言模型可以生成(预测)接下来的一个词。;在统计学模型为主体的???然语言处理时期,主要成果是N-gram语言模型。为了简化p(wi|w1,w2,...,wi-1)的计算,引入一阶马尔可夫假设:每个词只依赖前一个词;也可以引入二阶马尔可夫假设:每个词依赖前两个词。有了马尔可夫假设,就可以方便的计算条件概率。此外,还有前馈神经网络语言模型、循环神经网络语言模型及其他预训练语言模型。;语言模型可用于提升语音识别和机器翻译的性能。例如,在语音识别中,给定一段“厨房里食油用完了”的语音,有可能会输出“厨房里食油用完了”和“厨房里石油用完了”这两个读音完全一样的文本序列。如果语言模型判断出前者的概率大于后者的概率,就可以根据相同读音的语音输出“厨房里食油用完了”的文本序列。在机器翻译中,如果对英文“yougofirst”逐词翻译成中文的话,可能得到“你走先”“你先走”等排列方式的文本序列。如果语言模型判断出“你先走”的概率大于其他排列方式的文本序列的概率,我们就可以把“yougofirst”翻译成“你先走”。;早期在解决机器翻译这一类序列到序列的问题时,通常采用的做法是利用一个编码器和一个解码器构建端到端的神经网络模型,但是基于编码解码的神经网络存在两个问题。拿机器翻译作为例子:

问题1:如果翻译的句子很长很复杂,比如直接一篇文章输进去,模型的计算量很大,并且模型的准确率下降严重。

问题2:在翻译时,可能在不同的语境下,同一个词具有不同的含义,但是网络对这些词向量并没有区分度,没有考虑词与词之间的相关性,导致翻译效果比较差。;同样,在计算机视觉领域,如果输入的图像尺寸很大,做图像分类或者识别时,模型的性能就会下降。针对这样的问题,提出了注意力机制。

早在20世纪九十年代对注意力机制就有研究,到2014年弗拉基米尔的《视觉注意力的反复模型》一文中将其应用在视觉领域,后来伴随着2017年Transformer结构的提出,注意力机制在自然语言处理、计算机视觉等相关问题上被广泛应用。;“注意力机制”实际上就是想将人的感知方式、注意力的行为应用在机器上,让机器学会去感知数据中的重要和不重要的部分。比如要识别一张图片中是一个什么动物时,我们让机器存在这样一个注意力侧重点,最重要应该关注的地方是图片中动物的面部特征,包括耳朵、眼睛、鼻子、嘴巴,而不用太关注背景的一些信息。核心目的是希望机器能注意到对当前任务更关键的信息,而对于其他非关键信息不需要注意太多。同样,在机

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档