- 1
- 0
- 约5.54千字
- 约 7页
- 2026-05-26 发布于江苏
- 举报
2025年线性代数Transformer模型中的自注意力试题
一、填空题(每小题5分,共30分)
自注意力矩阵的维度计算:设输入序列长度为(L),特征维度为(d_{\text{model}}),在缩放点积注意力机制中,查询(Query)矩阵(Q)的维度为______,注意力权重矩阵(\text{Attention}(Q,K,V))的维度为______。
正交性与注意力分布:若查询向量(q_i)与所有键向量(k_j)((j=1,2,...,L))均正交,则注意力权重(\alpha_{i,j}=\frac{\exp(q_i^Tk_j/\sqrt{d_k})}{\sum_{m=1}^L\exp(q_i^Tk_m/\sqrt{d_k})})的值为______,此时模型对输入序列的关注度呈现______分布。
多头注意力的矩阵拼接:某Transformer模型采用8头注意力机制,每个头的特征维度为(d_k=d_v=64),则多头注意力的输出矩阵在拼接(Concatenate)操作后的维度为______,经过线性变换层(权重矩阵(W^O))后的输出维度为______。
矩阵秩与注意力机制:若键矩阵(K\in\mathbb{R}^{L\timesd_k})的秩为(rd_k),则注意力分数矩阵(QK^T)的秩
您可能关注的文档
最近下载
- 环境工程设计基础 第六章 管道布置设计.ppt VIP
- 高脂血症PPT课件.pptx VIP
- 最新部编版五年级语文下册下期期末易错题检测卷(两套及答案).docx VIP
- 2012首届中国创新创业大赛流程与评选标准2012首届中国创新创业大赛流程与评选标准.pdf VIP
- 2025东南亚跨境出海经营白皮书-TikTok Shop.pdf VIP
- 2022年江苏省连云港市高考物理模拟试卷(二)(附答案详解).docx VIP
- 分项工程量清单综合单价分析表.xls VIP
- 评估公司业务报备内部管理制度.docx VIP
- 五年级下册语文试题-期末易错题大闯关(有答案)人教部编版.docx VIP
- AnalysisofRyanair’sStrategy.doc VIP
原创力文档

文档评论(0)