Transformer与注意力机制【PPT文档】.pptxVIP

  • 0
  • 0
  • 约1.16万字
  • 约 40页
  • 2026-02-03 发布于河南
  • 举报

20XX/XX/XXTransformer与注意力机制汇报人:XXX

CONTENTS目录01注意力机制概述02注意力机制核心原理03自注意力机制详解04多头注意力机制

CONTENTS目录05注意力方向与掩码机制06Transformer架构解析07注意力机制数学原理08大模型中的注意力机制

注意力机制概述01

人类注意力的启发人类注意力的直觉表现当人类阅读句子时,会自动聚焦关键信息以理解上下文。例如读到那只苹果掉在了地上,因为它熟透了中的它时,大脑会重点关注苹果而非地上或那只,从而准确理解指代关系。传统模型的局限性在注意力机制出现前,如早期的RNN等模型处理长句子时,存在长距离遗忘问题,如同记性不好的人,处理到后面内容时会逐渐丢失前面的信息,难以捕捉远距离依赖关系。注意力机制的核心突破注意力机制赋予模型回头看的能力,使其能根据当前处理对象,动态确定对输入序列中不同元素的关注程度(权重),从而有效解决传统模型的信息遗忘问题,提升对上下文关联的捕捉能力。

传统模型的局限性并行计算受限循环神经网络(RNN)及其变体LSTM按序列顺序处理数据,无法充分利用GPU的并行计算能力,导致训练速度较慢。长距离依赖捕捉困难随着序列长度增加,RNN/LSTM模型对早期信息的记忆会逐渐衰减,难以有效捕捉文本中远距离单词间的依赖关系。信息瓶颈问题RNN/LSTM通过隐藏状态传递信息,隐藏状态需要压缩所有历史信息,可能导致信息丢失,影响模型对复杂上下文的理解。

注意力机制的核心价值突破长距离依赖瓶颈解决了RNN/LSTM等传统模型随序列长度增加,早期信息衰减、长距离依赖捕捉困难的问题,实现天涯若比邻的全局视野。实现并行计算加速摒弃RNN序列依赖的计算模式,可同时处理输入序列中的所有元素,大幅提升训练效率,为大模型的构建提供了算力基础。动态权重分配提升语义理解通过计算元素间的注意力分数并加权融合,使模型能动态聚焦关键信息,有效处理一词多义等问题,如mole在不同语境中分别理解为鼹鼠、摩尔或痣。奠定大模型革命基础作为Transformer架构的核心,其全局建模能力和并行效率是BERT、GPT等大模型实现强大语言理解与生成能力的关键,直接推动了AI技术的革命性突破。

注意力机制核心原理02

Query、Key、Value概念Query(查询):当前关注的目标Query是当前需要关注的目标向量,代表我想找什么。例如处理句子中的某个词时,该词会生成Query向量,用于后续匹配相关信息。Key(键):特征的标签信息Key是用于匹配查询的索引向量,代表特征的标签是什么。如同书架上书脊的分类标签,每个输入元素都会生成Key向量,用于与Query进行相似度比对。Value(值):实际包含的内容Value是与键关联的实际内容向量,代表具体的信息是什么。当Query与Key匹配后,模型会提取高匹配度Key对应的Value内容,加权融合形成输出结果。三者关系:信息检索的协作模式Query、Key、Value通过查询-匹配-提取的协作模式实现注意力计算。Query与Key计算相似度得到权重,再对Value进行加权求和,使模型能聚焦关键信息。

图书馆查资料类比提出查询(Query)你拿着一张写着“量子力学”的纸条,这张纸条就是查询向量(Q),代表你当前想要获取的信息主题。匹配标签(Key)你走过书架,将纸条上的内容与每本书脊上的分类标签(即键向量K)进行比对,如“物理学”“烹饪”等标签。计算相关性(注意力分数)通过比对,标签为“物理学”的书与“量子力学”匹配度高(分数高),而“烹饪”类书籍匹配度几乎为零(分数低),以此确定不同书籍的相关程度。加权提取内容(Value)你不会借走所有书籍,而是根据匹配度高低,提取那些标签匹配书籍的内容(即值向量V)并融合,形成最终所需的资料。

相关性计算过程查询与键的匹配每个元素生成查询向量(Q),与序列中所有元素的键向量(K)进行比对,通过点积运算衡量匹配程度,如“量子力学”查询与“物理学”键匹配度高,与“烹饪”键匹配度低。注意力分数计算对Q与K的点积结果进行缩放(除以键向量维度的平方根),避免softmax函数进入梯度饱和区,随后通过softmax归一化得到注意力权重,权重总和为1,代表各元素的相对重要性。加权融合值向量根据注意力权重对值向量(V)进行加权求和,权重高的元素对应的值向量在结果中占比更大,最终生成融合上下文信息的输出向量,如处理“AI”时,会重点融合“love”的值向量信息。掩码机制的应用在生成式模型中,通过掩码(Mask)将未来位置的注意力分数设为负无穷,确保模型仅关注当前及之前元素,如GPT处理“Love”时,掩码会遮挡“AI”,防止“偷看”后续信息。

加权提

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档