2025年线性代数Transformer模型中的自注意力试题.docVIP

下载本文档

1
0
约5.54千字
约 7页
2026-05-26 发布于江苏
举报

2025年线性代数Transformer模型中的自注意力试题.doc

2025年线性代数Transformer模型中的自注意力试题

一、填空题（每小题5分，共30分）

自注意力矩阵的维度计算：设输入序列长度为(L)，特征维度为(d_{\text{model}})，在缩放点积注意力机制中，查询（Query）矩阵(Q)的维度为______，注意力权重矩阵(\text{Attention}(Q,K,V))的维度为______。

正交性与注意力分布：若查询向量(q_i)与所有键向量(k_j)（(j=1,2,...,L)）均正交，则注意力权重(\alpha_{i,j}=\frac{\exp(q_i^Tk_j/\sqrt{d_k})}{\sum_{m=1}^L\exp(q_i^Tk_m/\sqrt{d_k})})的值为______，此时模型对输入序列的关注度呈现______分布。

多头注意力的矩阵拼接：某Transformer模型采用8头注意力机制，每个头的特征维度为(d_k=d_v=64)，则多头注意力的输出矩阵在拼接（Concatenate）操作后的维度为______，经过线性变换层（权重矩阵(W^O)）后的输出维度为______。

矩阵秩与注意力机制：若键矩阵(K\in\mathbb{R}^{L\timesd_k})的秩为(rd_k)，则注意力分数矩阵(QK^T)的秩

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2025年线性代数Transformer模型中的自注意力试题.docVIP