12深度学习-第十二章大模型.pptx

下载文档

0
0
约5.7千字
约 36页
2025-03-28 发布于山东
举报
版权申诉
保障服务

12深度学习-第十二章大模型.pptx

1、本文档共36页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第十二章大语言模型

第一节BERT模型

大语言模型特点参数量大：一般千亿级别参数泛化能力强具有广泛的语义理解能力通用性，可以解决多个语言处理问题涌现能力可以根据语义生成新的信息

12.1BERT模型：模型架构如图为BERT大语言模型的架构图●为输入表示层，Trm为经过Transformer的双向编码器模块处理的编码层，从图中可以看到由于使用双向编码器，每个词向量都关注句子的上下文，●为输出层。

12.1BERT模型：模型架构[CLS]mydogiscuteSEPhelikesplay##ing[SEP]输入层词嵌入片段嵌入位置嵌入BERT输入层由词嵌入、片段嵌入和位置嵌入三部分加和而成。如图所示。为了实现对文本的分类，在每个序列的首位插入特殊的字符[CLS]；为了分割不同的句子，BERT在每个句子后面加了分割表示符[SEP]●输入表示层：

12.1BERT模型：模型架构●编码层：●BERT编码层使用双向的Transformer编码器结构，其特点是包括双向的多头自注意力模块。●GPT模型使用的是受约束的自注意力层（只关注前面词的单向自注意力层）。

12.1BERT模型：预训练技术BERT的预训练任务包括掩码语言模型和下一句预测。掩码语言模型在预训练时按照如下方式进行预训练。80%的时间将单词替换为[MASK]，比如:“Ilikerobots”处理成“Ilike[MASK]”10%的时间用一个随机词替换为该词，比如：“Ilikerobots”处理成“Ilikedogs”10%的时间保持单词不变，比如：“Ilikerobots”处理成“Ilikerobots”.该训练任务的构建是为了充分利用上下文信息预测中间的词，从而实现词汇的上下文表示。2.下一句预测为了理解两句文本之间的关系，作者预训练了一个二元的下一句预测任务。预训练时，我们选择句子A和B，其中50%的时间B是A实际的下一个句子，50%的时间B是来自语料库中随机的句子。

12.1BERT模型：文本表示如图（a）和图（b），都是使用初始token[CLS]的表征，将该表征输入到分类网络中实现下游任务的微调。

12.1BERT模型：文本表示对于序列标注任务，则是使用序列中每个token的表征，如图12-4（c）和图12-4（d），将这些表征输入到token级别的分类网络进行微调。

《深度学习》第十二章大语言模型

第二节GPT模型郭宪南开大学人工智能学院

12.2GPT模型：模型架构文本和位置嵌入掩码多头自注意层归一化前馈层归一化12x文本预测文本分类GPT模型架构如图所示：●包括文本和位置嵌入层，12个Transformer解码器模块，和任务层。●解码器模块最重要的是部分是掩码多头自注意模块。与BERT的编码器使用双向自注意力编码上下文信息不同，GPT使用了单向自注意力层，即使用了掩码方法，当前词元只关注到序列中前面的词

12.2GPT模型：预训练GPT使用标准的语言模型，通过预测下一个词进行无监督预训练。具体而言，给定无监督的预料库，目标函数为最大化下一个词的概率：

12.2GPT模型：GPT1-GPT4?GPT1GPT2GPT3GPT3.5/ChatGPTGPT4发布时间2018.62019.22020.52022.112023.3模型架构12层解码器48层解码器96层解码器，交替密度和局部带状稀疏注意模块96层解码器增加视觉语言模型组件模型参数量117M1.5B175B175B未知训练方法及特点无监督预训练和有监督微调无监督预训练，zeroshot无监督预训练，fewshot有监督微调，RLHF学习奖励函数，PPO强化学习有监督微调，RLHF学习奖励函数，构造基于规则的奖励模型，PPO强化学习

《深度学习》第十二章大语言模型

第三节大语言模型微调方法郭宪南开大学人工智能学院

12.3大语言模型微调方法Adapter微调低秩分解微调前缀微调提示词微调●大模型全参数微调技术包括：监督微调和强化学习微调。●除了全参数微调技术，研究人员发展出多种部分参数微调方法，如：Adapter微调、低秩分解微调、前缀微调和提示词微调。●每一层加入Adapter模块●每一层加入LoRA模块●每一层前面加前缀●只在输入层加入可调的Prompt

12.3大语言模型微调方法：PromptTuningPromptInput层1层N●PromptTuning即提示词调优，是在进行大模型微调时，冻结预训练模型的参数，只对输入的提示词Prompt进行优化

12.3大语言模型微调方法：PrefixTuning●PrefixTuning即前缀调优，是

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

12深度学习-第十二章大模型.pptx