- 0
- 0
- 约5.3千字
- 约 13页
- 2026-03-17 发布于四川
- 举报
2026年人工智能算法工程师考试题含答案
1.单选题(每题2分,共20分)
1.1在VisionTransformer中,位置编码通常采用哪种形式才能与图像块序列长度无关?
A.绝对正弦编码?B.可学习1-D向量?C.相对二维旋转编码?D.无位置编码
答案:C
解析:ViT的2-D旋转位置编码(RoPE)在任意分辨率下保持相对几何关系,长度可变且无需插值。
1.2给定一个稀疏混合专家模型(MoE),若Top-2门控、专家容量因子1.25,batch=512,专家数=8,则理论上最大可承载token数为
A.1280?B.1600?C.2048?D.2560
答案:B
解析:容量=512×2×1.25=1280,每专家1280,8专家并行,最大token数=1280×8/2=1600(因每个token选2专家)。
1.3下列哪项技术最能直接缓解LLM“逆转诅咒”?
A.RLHF?B.反向训练?C.数据增强?D.指令微调
答案:B
解析:反向训练(reversetraining)显式让模型学习“B是A”与“A是B”双向关联,直接针对逆转诅咒。
1.4在扩散模型DDPM中,若线性噪声表β_t从0.0001到0.02均匀递增1000步,则α?_t的解析表达式为
A.∏_{i=1}^t(1-β_i)?B.1-∑β_i?C.e^{-∑β_i}?D.1/(1+∑β_i)
答案:A
解析:α?_t=∏_{i=1}^tα_i=∏(1-β_i)。
1.5联邦学习场景下,采用FedProx时近端参数μ0的主要作用是
A.加速通信压缩?B.限制本地更新漂移?C.增加模型稀疏?D.自动调整批大小
答案:B
解析:FedProx在本地目标加入μ‖w-w^t‖2,抑制异构数据导致的客户端漂移。
1.6在GPU上训练BERT-large,若采用激活检查点(activationcheckpointing),则显存占用约下降
A.1/2?B.1/3?C.1/4?D.不变
答案:A
解析:以时间换空间,显存从O(L)降至O(√L),对24层BERT近似减半。
1.7下列关于LoRA的描述错误的是
A.低秩矩阵分解?B.推理时可合并原权重?C.训练时需冻结原模型?D.秩r越大参数量越少
答案:D
解析:秩r越大,可训练参数量2×r×d越大。
1.8在多模态对比学习CLIP中,温度参数τ的梯度更新通常
A.固定为0.01?B.可学习?C.与batch大小成正比?D.必须手动衰减
答案:B
解析:τ作为可标量参与梯度下降,自动调节锐度。
1.9若将ReLU替换为SwiGLU,则参数量变化为
A.不变?B.增加1/3?C.增加1/2?D.减少1/4
答案:C
解析:SwiGLU引入门控线性单元,需额外投影矩阵,FFN参数量从2d2增至3d2。
1.10在强化学习人类反馈(RLHF)中,PPO-clip的ε常设为0.2,其含义是
A.优势估计截断阈值?B.策略比率裁剪边界?C.KL惩罚系数?D.折扣因子
答案:B
解析:rt(θ)=πθ/πθ_old,裁剪区间[1-ε,1+ε]。
2.多选题(每题3分,共15分;多选少选均不得分)
2.1以下哪些操作可提升Transformer推理速度?
A.KV-cache?B.FlashAttention?C.动态批调度?D.使用GELU替代ReLU
答案:A,B,C
解析:GELU计算量高于ReLU,不提速。
2.2关于Mamba(StateSpaceModel)结构,正确的是
A.线性复杂度?B.选择性机制?C.无需注意力?D.支持长序列并行训练
答案:A,B,C,D
解析:Mamba通过硬件化并行扫描实现O(n)且全长并行。
2.3下列属于“推理时扩展”(inference-timescaling)技术的是
A.思维链提示?B.自洽性解码?C.树搜索?D.模型并行
答案:A,B,C
解析:D为训练/推理通用并行策略,非扩展计算量。
2.4在扩散模型采样中,DPM-Solver相较于DDIM的优势包括
A.无需迭代?B.10步内高清生成?C.可用高阶ODE?D.支持变分下界
答案:B,C
解析:仍需迭代,但可用3阶ODE,10步内达到DDIM1000步质量。
2.5造成LLM“幻觉”的内部因素有
A.最大似然训练目标?B.数据分布长尾?C.解码随机性?D.知识截断
答案:A,B,C
解析:D为外部因素。
3.填空题(每空2分,共20分)
3.1假设使用AdamW优化器,权重衰减系数λ=0.01,则参数更新规则为
θ_{t+1}=θ_t-η(______+λθ_t)。
答
原创力文档

文档评论(0)