Transformer架构详解及力机制可视化.pdf

第12章Transformer

图12.1“bank”一词的解释受“river”和“swam”影响的注意力示意图,每条线的粗细表

示受影响的程度

图12.2习得的注意力权重示例[经Vaswani等人使用]

图12.3维的数据矩阵X的结构,其中第n行代表转置后的数据向量

图12.4决定Transformer中注意力系数的矩阵的计算示意图。分别通过式

(12.10)和式(12.11)对输入X进行变换,得到

文档评论(0)

1亿VIP精品文档

相关文档