2025年线性代数Transformer模型中的自注意力试题.docVIP

  • 1
  • 0
  • 约5.54千字
  • 约 7页
  • 2026-05-26 发布于江苏
  • 举报

2025年线性代数Transformer模型中的自注意力试题.doc

2025年线性代数Transformer模型中的自注意力试题

一、填空题(每小题5分,共30分)

自注意力矩阵的维度计算:设输入序列长度为(L),特征维度为(d_{\text{model}}),在缩放点积注意力机制中,查询(Query)矩阵(Q)的维度为______,注意力权重矩阵(\text{Attention}(Q,K,V))的维度为______。

正交性与注意力分布:若查询向量(q_i)与所有键向量(k_j)((j=1,2,...,L))均正交,则注意力权重(\alpha_{i,j}=\frac{\exp(q_i^Tk_j/\sqrt{d_k})}{\sum_{m=1}^L\exp(q_i^Tk_m/\sqrt{d_k})})的值为______,此时模型对输入序列的关注度呈现______分布。

多头注意力的矩阵拼接:某Transformer模型采用8头注意力机制,每个头的特征维度为(d_k=d_v=64),则多头注意力的输出矩阵在拼接(Concatenate)操作后的维度为______,经过线性变换层(权重矩阵(W^O))后的输出维度为______。

矩阵秩与注意力机制:若键矩阵(K\in\mathbb{R}^{L\timesd_k})的秩为(rd_k),则注意力分数矩阵(QK^T)的秩

文档评论(0)

1亿VIP精品文档

相关文档