- 0
- 0
- 约4.75千字
- 约 13页
- 2026-03-16 发布于四川
- 举报
2026年大学人工智能(模型训练)期中测试卷
一、单项选择题(每题2分,共20分)
1.在PyTorch中,若模型参数`requires_grad=True`,下列操作不会触发反向图构建的是
A.`y=x+1`
B.`y=x.detach()2`B.`y=x.detach()2`
C.`y=torch.matmul(x,w)`
D.`y=x.sum()`
2.对于批量归一化(BatchNorm1d)层,在训练阶段统计量`running_mean`的更新公式为
A.`running_mean=(1?momentum)·running_mean+momentum·batch_mean`
B.`running_mean=momentum·running_mean+(1?momentum)·batch_mean`
C.`running_mean+=batch_mean`
D.`running_mean=exponential_decay·batch_mean`
3.若使用Adam优化器,其偏差修正项`v?_t`的表达式为
A.`v_t/(1?β_2^{t})`
B.`v_t/(1?β_1^{t})`
C.`v_t·(1?β_2^{t})`
D.`v_t·β_2^{t}`
4.在Transformer中,缩放点积注意力机制的分母`√d_k`主要解决
A.梯度消失
B.梯度爆炸
C.softmax饱和区
D.参数欠约束
5.若将ReLU替换为GELU,模型参数量
A.增加约25%
B.不变
C.减少约10%
D.增加一倍
6.在数据并行(DDP)场景下,以下说法正确的是
A.每张卡前向计算图完全一致
B.梯度规约(All-Reduce)发生在优化器更新之后
C.无需同步BatchNorm统计量
D.学习率需随GPU数量线性缩放
7.若使用混合精度训练,LossScaling因子过大可能导致
A.权重更新方向反转
B.梯度下溢
C.梯度上溢
D.激活值饱和
8.对于二分类任务,若正负样本比例1:99,首选的采样策略是
A.RandomOverSampler
B.SMOTE
C.FocalLoss
D.以上均可
9.在卷积神经网络中,深度可分离卷积(DepthwiseSeparable)相对标准卷积,计算量约减少
A.1/2
B.1/3
C.1/8
D.1/16
10.若验证集损失连续5epoch不降,学习率乘以0.1,该策略称为
A.StepDecay
B.ReduceLROnPlateau
C.CosineAnnealing
D.WarmRestarts
二、多项选择题(每题3分,共15分;多选少选均不得分)
11.下列技术可有效缓解过拟合的有
A.DropBlock
B.LabelSmoothing
C.StochasticDepth
D.GradientCentralization
12.关于梯度裁剪(GradientClipping),正确的有
A.按范数裁剪可防止爆炸
B.按值裁剪对RNN更有效
C.裁剪阈值越大,更新步长越大
D.可与任意优化器联用
13.在VisionTransformer中,位置编码需满足
A.可外推到更长序列
B.对平移不变
C.对排列等变
D.可学习或固定
14.以下操作会改变模型容量的有
A.将Linear(512→256)替换为LoRArank=8
B.在ResNet50末端添加CBAM模块
C.将ReLU替换为Swish
D.使用知识蒸馏让Student拟合Teacherlogits
15.若使用FSDP(FullyShardedDataParallel),正确的是
A.参数分片存储
B.梯度也分片
C.通信与计算可重叠
D.需PyTorch≥2.0
三、判断题(每题1分,共10分;正确打“√”,错误打“×”)
16.使用更大的batchsize一定缩短训练时间。
17.梯度累积(GradientAccumulation)等价于增大batchsize。
18.在LayerNorm中,γ与β的初始化值对收敛速度无影响。
19.对于自监督对比学习,温度系数τ越小,正样本对的梯度越大。
20.知识蒸馏中,当Teacher与Student架构完全一致时,蒸馏无效。
21.使用FlashAttention可将注意力内存复杂度从O(n2)降至O(n)。
22.在卷积层后接GroupNorm时,group数等于通道数等价于InstanceNorm。
23.使用1Cycle策略时,学习率与
您可能关注的文档
- 2026年土方工程施工方案.docx
- 2026年腕带错误应急处置演练脚本.docx
- 2026年无人机事故应急处置演练方案.docx
- 2026年血源性传染病防控专项演练脚本.docx
- 2026年一体化污水提升泵站项目施工方案.docx
- 2026年医用消毒液泄漏应急演练脚本.docx
- 2026年灼烫事故现场处置演练方案.docx
- 品牌管理体系实施指南.docx
- 七年级下册地理知识点归纳与总结.docx
- 企业质量诚信管理手册.docx
- 宣贯培训(2026年)《QBT 5863-2023商用电滚动烤肠机》.pptx
- 儿童淋巴结肿大临床诊治专家共识解读PPT课件.pptx
- 宣贯培训(2026年)《QBT 5864-2023吊篮椅》.pptx
- CN118673974B 基于bam忆阻神经网络有限时间同步的图像加密方法及系统 (盐城工学院).pdf
- 2026企业邮箱轻操作款:大型企业也能快速上手.docx
- 新药设计与研究模拟卷——山东大学新药设计试卷及答案.docx
- 宣贯培训(2026年)《QBT 5865-2023充气沙发》.pptx
- CN118673725B 工件装配仿真方法及相关设备 (荣耀终端有限公司).pdf
- 甘肃中医药大学中医学专业中医内科学试卷及答案.docx
- 《变态心理学》试卷及答案.docx
原创力文档

文档评论(0)