深度学习课件第八章 Transformer与Mamba ..pptx

下载文档

0
0
约1.56千字
约 44页
2026-02-12 发布于山东
举报
保障服务

深度学习课件第八章 Transformer与Mamba ..pptx

第八章Transformer与Mamba

第一节注意力机制;注意力：是指序列中两个元素之间的相关性程度;;;;假设我们要对以下输入句子进行自注意力机制计算：“Ihaveabook”

计算过程如下：（1）将单词转换为词向量，通过权重矩阵转变为Embeding，计算不同词向量之间的缩放点击注意力得力得分，并归一化;（2）对于每一个Embending，将其对于不同位置单词的注意力得分与值向量加权求和，得到自注意力的输出,下面以第一个单词为例，依此类推;动机：当给定相同的查询、键和值时，我们希望模型可以基于注意力机制学习到不同的行为和知识，然后将不同的行为和知识组合起来，捕获序列内各种范围

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

深度学习课件第八章 Transformer与Mamba ..pptx

深度学习课件第八章 Transformer与Mamba ..pptx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档

深度学习 课件 第八章 Transformer与Mamba ..pptx

深度学习 课件 第八章 Transformer与Mamba ..pptx

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档

深度学习课件第八章 Transformer与Mamba ..pptx

深度学习课件第八章 Transformer与Mamba ..pptx