2026年大模型稀疏注意力机制优化模拟题答案及解析
【第一部分:单项选择题】
1.在标准Transformer架构中,自注意力机制的计算复杂度主要受限于序列长度的平方,即O(
A.降低计算复杂度
B.减少显存占用
C.完全保留全局上下文信息
D.提升推理速度
【答案】C
【解析】稀疏注意力机制通过限制每个Token只关注部分Token(而非全部Token)来将计算复杂度从O()降低到O(
2.Longformer模型采用了一种滑动窗口式的局部注意力机制。假设滑动窗口的大小为w,对于序列中第i个Token,它的注意力范围是?
A.[0
B.[i?w
C.[i,i
原创力文档

文档评论(0)