+大数据行业应用指南
第一章基础架构与数据治理
第一节大模型基础原理与核心算法
1.1注意力机制与自注意力结构
注意力机制(AttentionMechanism)是大模型理解复杂语义的基石,其核心在于计算当前token与其他所有token的相关性分数。例如,在句子“猫捉老鼠”中,模型需计算“猫”与“老鼠”之间的向量距离,从而决定将“猫”的权重放大,忽略无关词。自注意力结构(Self-Attention)通过引入位置编码,解决了传统RNN无法处理长序列依赖的问题。若输入序列为$[x_1,x_2,x_3]$,自注意力层会一个$N\timesN$的分数矩阵
原创力文档

文档评论(0)