2025年大模型模型并行化部署技术试卷答案及解析.docxVIP

  • 2
  • 0
  • 约7.3千字
  • 约 17页
  • 2026-05-09 发布于四川
  • 举报

2025年大模型模型并行化部署技术试卷答案及解析.docx

2025年大模型模型并行化部署技术试卷答案及解析

一、单项选择题(每题2分,共20分)

1.关于大模型张量并行(TensorParallelism)的维度选择,以下说法正确的是:

A.词嵌入层(EmbeddingLayer)通常按词表维度(VocabSize)并行

B.自注意力层(Self-Attention)的QKV投影矩阵应按输出维度并行

C.前馈网络(FFN)的第一层线性变换需按输入维度并行

D.所有全连接层均应采用相同的并行维度划分

答案:A

解析:词嵌入层的参数矩阵维度为[VocabSize,HiddenSize],若按VocabSize维度拆分,不同GPU存储不同词的嵌入向量,计算时通过All-Gather获取完整词表,符合其“离散词到连续向量”的映射特性(B错误,QKV投影矩阵维度为[HiddenSize,3×HiddenSize],通常按3×HiddenSize维度拆分以并行计算多头注意力;C错误,FFN第一层线性变换维度为[HiddenSize,4×HiddenSize],一般按4×HiddenSize维度拆分以并行计算扩展;D错误,不同层的计算特性不同,需针对性选择并行维度)。

2.流水线并行(PipelineParallelism)中,“气泡”(Bubble)问题的主要成因是:

A.

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档