2026年大模型稀疏注意力机制优化模拟题答案及解析.backup.docx

2026年大模型稀疏注意力机制优化模拟题答案及解析.backup.docx

2026年大模型稀疏注意力机制优化模拟题答案及解析

【第一部分:单项选择题】

1.在标准Transformer架构中,自注意力机制的计算复杂度主要受限于序列长度的平方,即O(

A.降低计算复杂度

B.减少显存占用

C.完全保留全局上下文信息

D.提升推理速度

【答案】C

【解析】稀疏注意力机制通过限制每个Token只关注部分Token(而非全部Token)来将计算复杂度从O()降低到O(

2.Longformer模型采用了一种滑动窗口式的局部注意力机制。假设滑动窗口的大小为w,对于序列中第i个Token,它的注意力范围是?

A.[0

B.[i?w

C.[i,i

文档评论(0)

1亿VIP精品文档

相关文档