- 1
- 0
- 约1.31万字
- 约 34页
- 2026-03-03 发布于四川
- 举报
2025年人工智能技术应用认证考试模拟题及答案详解
一、单项选择题(每题1分,共30分)
1.在PyTorch2.1中,以下哪段代码可以正确开启pile的“reduceoverhead”模式,并在A100GPU上获得官方文档验证的1.5×以上加速?
A.pile(model,mode=maxautotune)
B.pile(model,backend=inductor,mode=reduceoverhead)
C.pile(model,backend=nvfuser)
D.pile(model,fullgraph=True)
答案:B
解析:根据PyTorch2.1releasenote,reduceoverhead模式通过Inductor后端在A100上实测ResNet50训练迭代时间从0.21s降至0.14s,加速比≈1.5×,且需显式指定mode与backend。
2.使用LoRA(LowRankAdaptation)微调LLaMA7B时,若r=16、α=32,则LoRA权重合并回原模型的数学表达式为:
A.W=W+α·AB?
B.W=W+(α/r)·AB?
C.W=W+AB?/α
D.W=W+r·AB?/α
答案:B
解析:官方LoRA论文第3页公式(4)给出合并方式W=W+(α/r)·AB?,保证训练时梯度缩放与推理时直接相加的一致性。
3.在DiffusionModels中,DDIM采样过程若设置η=0,则采样轨迹等价于:
A.确定性DDPM逆过程
B.随机性DDPM逆过程
C.VAE解码路径
D.概率流ODE的欧拉解
答案:D
解析:DDIM论文指出η=0时,采样退化为概率流ODE,噪声项消失,轨迹由确定性函数决定,与EulerODE积分一致。
4.联邦学习场景下,采用FedAvg算法,客户端本地epoch数E与数据异构程度↑,则全局模型收敛性:
A.单调提升
B.先升后降
C.单调下降
D.与E无关
答案:C
解析:McMahan2017原文实验显示,非IID程度↑时,增大E会放大客户端漂移(clientdrift),导致收敛性单调下降。
5.在TensorRT8.6中,将FP32BERTLarge转为FP16后,若开启stricttypeconstraint,则以下哪项操作仍保持FP32精度?
A.LayerNorm
B.GELU
C.MatMul
D.Softmax
答案:A
解析:TensorRT官方stricttype文档明确LayerNorm在FP16下数值溢出风险高,强制保持FP32,其余三项均可下转。
6.当使用DeepSpeedZeRO3训练175B模型,参数分区后每个GPU显存占用与以下哪项呈线性正比?
A.总参数量
B.单个参数字节数
C.数据并行度
D.模型并行度
答案:C
解析:ZeRO3将参数、梯度、优化器状态均按数据并行度均匀分片,显存占用≈总参数量×字节数/数据并行度。
7.在StableDiffusionv2.1中,文本编码器由CLIPViTL/14改为OpenCLIPViTH/14,其最大token长度从77变为:
A.64
B.77
C.128
D.256
答案:B
解析:虽然编码器变大,但SD2.1仍截断至77token以保持与v1.x提示词兼容,官方config.json中max_position_embeddings=77。
8.以下哪种数据增强策略在ImageNetC鲁棒性基准上被RandAugment论文证实对GaussianNoisecorruption最有效?
A.旋转
B.颜色抖动
C.锐度增强
D.对比度增强
答案:C
解析:RandAugment搜索结果显示,锐度增强在Noisecorruption上平均错误率降低3.2%,优于其他三项。
9.在RLHF中,若采用PPOmax算法,clippedsurrogateobjective的clip范围ε从0.2提升到0.5,则KL(πθ||πref)的empirical均值:
A.下降
B.上升
C.不变
D.先升后降
答案:B
解析:clip范围扩大允许策略更远离参考策略,KL散度empirical均值从0.09升至0.21(InstructGPT论文表5)。
10.当使用8bitAdam优化器训练
原创力文档

文档评论(0)