2026年大学人工智能(模型训练)期中测试卷.docxVIP

  • 0
  • 0
  • 约4.75千字
  • 约 13页
  • 2026-03-16 发布于四川
  • 举报

2026年大学人工智能(模型训练)期中测试卷.docx

2026年大学人工智能(模型训练)期中测试卷

一、单项选择题(每题2分,共20分)

1.在PyTorch中,若模型参数`requires_grad=True`,下列操作不会触发反向图构建的是

A.`y=x+1`

B.`y=x.detach()2`B.`y=x.detach()2`

C.`y=torch.matmul(x,w)`

D.`y=x.sum()`

2.对于批量归一化(BatchNorm1d)层,在训练阶段统计量`running_mean`的更新公式为

A.`running_mean=(1?momentum)·running_mean+momentum·batch_mean`

B.`running_mean=momentum·running_mean+(1?momentum)·batch_mean`

C.`running_mean+=batch_mean`

D.`running_mean=exponential_decay·batch_mean`

3.若使用Adam优化器,其偏差修正项`v?_t`的表达式为

A.`v_t/(1?β_2^{t})`

B.`v_t/(1?β_1^{t})`

C.`v_t·(1?β_2^{t})`

D.`v_t·β_2^{t}`

4.在Transformer中,缩放点积注意力机制的分母`√d_k`主要解决

A.梯度消失

B.梯度爆炸

C.softmax饱和区

D.参数欠约束

5.若将ReLU替换为GELU,模型参数量

A.增加约25%

B.不变

C.减少约10%

D.增加一倍

6.在数据并行(DDP)场景下,以下说法正确的是

A.每张卡前向计算图完全一致

B.梯度规约(All-Reduce)发生在优化器更新之后

C.无需同步BatchNorm统计量

D.学习率需随GPU数量线性缩放

7.若使用混合精度训练,LossScaling因子过大可能导致

A.权重更新方向反转

B.梯度下溢

C.梯度上溢

D.激活值饱和

8.对于二分类任务,若正负样本比例1:99,首选的采样策略是

A.RandomOverSampler

B.SMOTE

C.FocalLoss

D.以上均可

9.在卷积神经网络中,深度可分离卷积(DepthwiseSeparable)相对标准卷积,计算量约减少

A.1/2

B.1/3

C.1/8

D.1/16

10.若验证集损失连续5epoch不降,学习率乘以0.1,该策略称为

A.StepDecay

B.ReduceLROnPlateau

C.CosineAnnealing

D.WarmRestarts

二、多项选择题(每题3分,共15分;多选少选均不得分)

11.下列技术可有效缓解过拟合的有

A.DropBlock

B.LabelSmoothing

C.StochasticDepth

D.GradientCentralization

12.关于梯度裁剪(GradientClipping),正确的有

A.按范数裁剪可防止爆炸

B.按值裁剪对RNN更有效

C.裁剪阈值越大,更新步长越大

D.可与任意优化器联用

13.在VisionTransformer中,位置编码需满足

A.可外推到更长序列

B.对平移不变

C.对排列等变

D.可学习或固定

14.以下操作会改变模型容量的有

A.将Linear(512→256)替换为LoRArank=8

B.在ResNet50末端添加CBAM模块

C.将ReLU替换为Swish

D.使用知识蒸馏让Student拟合Teacherlogits

15.若使用FSDP(FullyShardedDataParallel),正确的是

A.参数分片存储

B.梯度也分片

C.通信与计算可重叠

D.需PyTorch≥2.0

三、判断题(每题1分,共10分;正确打“√”,错误打“×”)

16.使用更大的batchsize一定缩短训练时间。

17.梯度累积(GradientAccumulation)等价于增大batchsize。

18.在LayerNorm中,γ与β的初始化值对收敛速度无影响。

19.对于自监督对比学习,温度系数τ越小,正样本对的梯度越大。

20.知识蒸馏中,当Teacher与Student架构完全一致时,蒸馏无效。

21.使用FlashAttention可将注意力内存复杂度从O(n2)降至O(n)。

22.在卷积层后接GroupNorm时,group数等于通道数等价于InstanceNorm。

23.使用1Cycle策略时,学习率与

文档评论(0)

1亿VIP精品文档

相关文档