- 0
- 0
- 约8千字
- 约 18页
- 2026-02-13 发布于四川
- 举报
2025年国家人工智能工程师资格认证练习题模拟(附答案)
1.单项选择题(每题1分,共20分)
1.1在PyTorch2.1中,以下哪一行代码可以正确关闭自动求导引擎对后续计算图的追踪?
A.torch.set_grad_enabled(False)
B.torch.no_grad()
C.withtorch.no_grad():
D.torch.autograd.set_grad_enabled(False)
答案:C
1.2使用VisionTransformer(ViT)时,若输入图像为224×224×3,patchsize=16,则Transformer编码器接收的token序列长度(含clstoken)为:
A.196
B.197
C.198
D.256
答案:B
1.3在联邦学习场景下,FedAvg算法每轮通信中,服务器端聚合模型参数时采用的聚合策略是:
A.加权平均,权重与客户端数据量成正比
B.简单算术平均
C.加权平均,权重与客户端梯度范数成正比
D.加权平均,权重与客户端本地训练轮数成正比
答案:A
1.4对于StableDiffusionv2.1的潜空间扩散模型,其VAE编码器下采样倍率为:
A.4
B.8
C.16
D.32
答案:B
1.5在LLaMA270B模型中,采用的分组查询注意力(GQA)中,每组查询头数与键/值头数之比为:
A.1:1
B.2:1
C.4:1
D.8:1
答案:C
1.6当使用DeepSpeedZeRO3训练千亿级模型时,以下哪项内存占用可以被完全消除?
A.优化器状态
B.梯度
C.模型参数
D.激活值
答案:C
1.7在CTR预估任务中,DeepFM与xDeepFM的核心差异在于:
A.是否引入高阶隐式特征交叉
B.是否引入高阶显式特征交叉
C.是否使用attention机制
D.是否使用残差连接
答案:B
1.8对于多模态模型BLIP2,QFormer的查询向量数量在训练阶段设置为:
A.32
B.64
C.96
D.128
答案:A
1.9在AlphaFold2的Evoformer中,以下哪一步直接利用了MSA(多序列比对)的行wise自注意力?
A.MSAStack
B.PairStack
C.TriangleMultiplication
D.TriangleAttention
答案:A
1.10当使用INT8量化部署BERTbase时,采用KL散度校准法确定量化阈值,其校准数据集通常大小为:
A.100
B.500
C.1000
D.5000
答案:C
1.11在DiffusionModel训练阶段,若噪声调度采用cosineschedule,则扩散过程的最大时间步T通常取:
A.100
B.200
C.1000
D.4000
答案:C
1.12对于NVIDIAA10080GBGPU,使用TF32精度训练时,峰值理论算力(稀疏)为:
A.156TFLOPS
B.312TFLOPS
C.624TFLOPS
D.1248TFLOPS
答案:B
1.13在MoE(MixtureofExperts)模型中,若top2门控策略引入loadbalancingloss,其系数通常设置为:
A.1e2
B.1e3
C.1e4
D.1e5
答案:B
1.14当使用LoRA微调LLM时,若rank=16,alpha=32,则LoRA权重在合并时的缩放系数为:
A.0.5
B.1.0
C.2.0
D.16.0
答案:C
1.15在DPO(DirectPreferenceOptimization)中,偏好损失函数相对于BradleyTerry模型的优势是:
A.无需显式奖励模型
B.可处理多轮对话
C.支持多模态输入
D.支持连续动作空间
答案:A
1.16在LangChain框架中,用于将多个文档按token长度递归拆分的类是:
A.CharacterTextSplitter
B.RecursiveCharacterTextSplitter
C.TokenTextSplitter
D.NLTKTextSp
原创力文档

文档评论(0)