大语言模型基础(微课版)课件 第2章 大模型与生成式AI.pptx

大语言模型基础(微课版)课件 第2章 大模型与生成式AI.pptx

  1. 1、本文档共83页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;;语言模型是自然语言处理领域的基础任务和核心问题,其目标是对自然语言的概率分布建模。大量的研究从n元语言模型、神经语言模型以及预训练语言模型等不同角度开展了一系列工作,这些研究在不同阶段对自然语言处理任务有重要作用。随着基于谷歌Transformer的各类语言模型的发展,以及预训练微调范式在自然语言处理各类任务中取得突破性进展,从OpenAI发布GPT-3开始,对大语言模型的研究逐渐深入。虽然大模型的参数量巨大,通过有监督微调和强化学习能够完成非常多的任务,但是其基础理论仍然离不开对语言的建模。;此外,作为一种能够创造新的内容或预测未来数据的人工智能技术,生成式AI(GenerativeAI)包括用于生成文本、图像、音频和视频等各种类型内容的模型。生成式AI的一个关键特性是,它不仅可以理解和分析数据,还可以创造新的、独特的输出,这些输出是从学习的数据模式中派生出来的。;;PART01;语言模型起源于语音识别。输入一段音频数据,语音识别系统通常会生成多个句子作为候选,判断哪个句子更合理?这就需要用到语言模型对候选句子进行排序。语言模型的应用范围早已扩展到机器翻译、信息检索、问答、文摘等众多自然语言处理领域。;语言模型是这样一个模型:对于任意的词序列,它能够计算出这个序列是一句话的概率。例如,词序列A:“这个网站|的|文章|真|水|啊”,这个明显是一句话,一个好的语言模型也会给出很高的概率。再看词序列B:“这个网站|的|睡觉|苹果|好快”,这明显不是一句话,如果语言模型训练的好,那么序列B的概率就会很小。;于是,给出语言模型的较为正式的定义。假设我们要为中文创建一个语言模型,V表示词典,V={猫,狗,机器,学习,语言,模型,...},wi∈V。语言模型就是这样一个模型:给定词典V,能够计算出任意单词序列w1,w2,...,wn是一句话的概率p(w1,w2,...,wn),其中,p≥0。

语言模型中计算p(w1,w2,...,wn)的最简单方法是数数,假设训练集中共有N个句子,数一下在训练集中(w1,w2,...,wn)出现的次数,不妨假定为n,则p(w1,w2,...,wn)=n/N。可以想象出这个模型的预测能力几乎为0,一旦单词序列没有???训练集中出现过,模型的输出概率就是0。;语言模型的另一种等价定义是:能够计算p(wi|w1,w2,...,wi-1)的模型就是语言模型。

从文本生成角度来看,也可以给出如下的语言模型定义:给定一个短语(一个词组或一句话),语言模型可以生成(预测)接下来的一个词。;在统计学模型为主体的自然语言处理时期,语言模型任务主要是N-gram语言模型。为了简化p(wi|w1,w2,...,wi-1)的计算,引入一阶马尔可夫假设:每个词只依赖前一个词;也可以引入二阶马尔可夫假设:每个词依赖前两个词。马尔可夫假设可以方便的计算条件概率。此外,还有前馈神经网络语言模型、循环神经网络语言模型及其他预训练语言模型。;语言模型可用于提升语音识别和机器翻译的性能。例如,在语音识别中,给定一段“厨房里食油用完了”的语音,有可能会输出“厨房里食油用完了”和“厨房里石油用完了”这两个读音完全一样的文本序列。如果语言模型判断出前者的概率大于后者的概率,就可以根据相同读音的语音输出“厨房里食油用完了”这个文本序列。在机器翻译中,如果对英文“yougofirst”逐词翻译成中文的话,可能得到“你走先”“你先走”等排列方式的文本序列。如果语言模型判断出“你先走”的概率大于其他排列方式文本序列的概率,就可以把“yougofirst”译成“你先走”。;早期在解决机器翻译这一类序列到序列的问题时,通常采用的做法是利用一个编码器和一个解码器构建端到端的神经网络模型。但是,基于编码解码的神经网络存在两个问题。拿机器翻译作为例子:

问题1:如果翻译的句子很长很复杂,比如直接将一篇文章输进去,模型的计算量很大,并且模型的准确率下降严重。

问题2:在不同的翻译语境下,同一个词可能具有不同含义,但是网络对这些词向量并没有区分度,没有考虑词与词之间的相关性,导致翻译效果比较差。;同样,在计算机视觉领域,如果输入的图像尺寸很大,做图像分类或者识别时,模型的性能也会下降。针对这样的问题,提出了注意力机制。

早在20世纪九十年代对注意力机制就有研究,到2014年弗拉基米尔的《视觉注意力的反复模型》一文中将其应用在视觉领域,后来,伴随着2017年Transformer结构的提出,注意力机制在自然语言处理、计算机视觉等相关问题上被广泛应用。;“注意力机制”实际上就是想将人的感知方式、注意力的行为应用在机器上,让机器学会去感知数据中的重要和不重要的部分

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档