网站大量收购独家精品文档,联系QQ:2885784924

12深度学习-第十二章 大模型.pptx

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第十二章大语言模型

第一节BERT模型

大语言模型特点参数量大:一般千亿级别参数泛化能力强具有广泛的语义理解能力通用性,可以解决多个语言处理问题涌现能力可以根据语义生成新的信息

12.1BERT模型:模型架构如图为BERT大语言模型的架构图●为输入表示层,Trm为经过Transformer的双向编码器模块处理的编码层,从图中可以看到由于使用双向编码器,每个词向量都关注句子的上下文,●为输出层。

12.1BERT模型:模型架构[CLS]mydogiscuteSEPhelikesplay##ing[SEP]输入层词嵌入片段嵌入位置嵌入BERT输入层由词嵌入、片段嵌入和位置嵌入三部分加和而成。如图所示。为了实现对文本的分类,在每个序列的首位插入特殊的字符[CLS];为了分割不同的句子,BERT在每个句子后面加了分割表示符[SEP]●输入表示层:

12.1BERT模型:模型架构●编码层:●BERT编码层使用双向的Transformer编码器结构,其特点是包括双向的多头自注意力模块。●GPT模型使用的是受约束的自注意力层(只关注前面词的单向自注意力层)。

12.1BERT模型:预训练技术BERT的预训练任务包括掩码语言模型和下一句预测。掩码语言模型在预训练时按照如下方式进行预训练。80%的时间将单词替换为[MASK],比如:“Ilikerobots”处理成“Ilike[MASK]”10%的时间用一个随机词替换为该词,比如:“Ilikerobots”处理成“Ilikedogs”10%的时间保持单词不变,比如:“Ilikerobots”处理成“Ilikerobots”.该训练任务的构建是为了充分利用上下文信息预测中间的词,从而实现词汇的上下文表示。2.下一句预测为了理解两句文本之间的关系,作者预训练了一个二元的下一句预测任务。预训练时,我们选择句子A和B,其中50%的时间B是A实际的下一个句子,50%的时间B是来自语料库中随机的句子。

12.1BERT模型:文本表示如图(a)和图(b),都是使用初始token[CLS]的表征,将该表征输入到分类网络中实现下游任务的微调。

12.1BERT模型:文本表示对于序列标注任务,则是使用序列中每个token的表征,如图12-4(c)和图12-4(d),将这些表征输入到token级别的分类网络进行微调。

《深度学习》第十二章大语言模型

第二节GPT模型郭宪南开大学人工智能学院

12.2GPT模型:模型架构文本和位置嵌入掩码多头自注意层归一化前馈层归一化12x文本预测文本分类GPT模型架构如图所示:●包括文本和位置嵌入层,12个Transformer解码器模块,和任务层。●解码器模块最重要的是部分是掩码多头自注意模块。与BERT的编码器使用双向自注意力编码上下文信息不同,GPT使用了单向自注意力层,即使用了掩码方法,当前词元只关注到序列中前面的词

12.2GPT模型:预训练GPT使用标准的语言模型,通过预测下一个词进行无监督预训练。具体而言,给定无监督的预料库,目标函数为最大化下一个词的概率:

12.2GPT模型:GPT1-GPT4?GPT1GPT2GPT3GPT3.5/ChatGPTGPT4发布时间2018.62019.22020.52022.112023.3模型架构12层解码器48层解码器96层解码器,交替密度和局部带状稀疏注意模块96层解码器增加视觉语言模型组件模型参数量117M1.5B175B175B未知训练方法及特点无监督预训练和有监督微调无监督预训练,zeroshot无监督预训练,fewshot有监督微调,RLHF学习奖励函数,PPO强化学习有监督微调,RLHF学习奖励函数,构造基于规则的奖励模型,PPO强化学习

《深度学习》第十二章大语言模型

第三节大语言模型微调方法郭宪南开大学人工智能学院

12.3大语言模型微调方法Adapter微调低秩分解微调前缀微调提示词微调●大模型全参数微调技术包括:监督微调和强化学习微调。●除了全参数微调技术,研究人员发展出多种部分参数微调方法,如:Adapter微调、低秩分解微调、前缀微调和提示词微调。●每一层加入Adapter模块●每一层加入LoRA模块●每一层前面加前缀●只在输入层加入可调的Prompt

12.3大语言模型微调方法:PromptTuningPromptInput层1层N●PromptTuning即提示词调优,是在进行大模型微调时,冻结预训练模型的参数,只对输入的提示词Prompt进行优化

12.3大语言模型微调方法:PrefixTuning●PrefixTuning即前缀调优,是

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档