深度学习 课件 第八章 Transformer与Mamba ..pptx

深度学习 课件 第八章 Transformer与Mamba ..pptx

第八章Transformer与Mamba

第一节注意力机制;注意力:是指序列中两个元素之间的相关性程度;;;;假设我们要对以下输入句子进行自注意力机制计算:“Ihaveabook”

计算过程如下:(1)将单词转换为词向量,通过权重矩阵转变为Embeding,计算不同词向量之间的缩放点击注意力得力得分,并归一化;(2)对于每一个Embending,将其对于不同位置单词的注意力得分与值向量加权求和,得到自注意力的输出,下面以第一个单词为例,依此类推;动机:当给定相同的查询、键和值时,我们希望模型可以基于注意力机制学习到不同的行为和知识,然后将不同的行为和知识组合起来,捕获序列内各种范围

文档评论(0)

1亿VIP精品文档

相关文档