- 0
- 0
- 约7.1千字
- 约 21页
- 2026-03-09 发布于四川
- 举报
2025年高级人工智能训练师职业技能鉴定理论考试题库(含答案)
一、单项选择题(每题1分,共30分。每题只有一个正确答案,请将正确选项字母填在括号内)
1.在Transformer架构中,用于捕捉序列位置信息的核心组件是()
A.自注意力层
B.位置编码
C.层归一化
D.前馈网络
答案:B
2.当使用Adam优化器时,下列超参数对初始学习率缩放影响最大的是()
A.β1
B.β2
C.ε
D.α
答案:D
3.在联邦学习场景下,为防止模型泄露用户隐私,通常采用的安全计算协议是()
A.TCP
B.SPDZ
C.HTTP/3
D.gRPC
答案:B
4.对于类别极度不平衡的文本分类任务,首选的加权损失函数是()
A.MSE
B.CrossEntropy
C.FocalLoss
D.HingeLoss
答案:C
5.在强化学习中,Qlearning属于哪一类方法()
A.策略梯度
B.值函数近似
C.模型预测控制
D.进化策略
答案:B
6.当使用混合精度训练时,LossScaling的主要目的是()
A.加速显存访问
B.防止梯度下溢
C.降低通信开销
D.提高批大小
答案:B
7.在VisionTransformer中,PatchEmbedding的输入通道数通常等于()
A.类别数
B.隐藏层维度
C.图像通道数
D.注意力头数
答案:C
8.下列关于DropPath的描述,正确的是()
A.仅作用于输入层
B.是一种数据增强
C.随机丢弃残差分支
D.等价于Dropout
答案:C
9.在模型蒸馏中,温度参数T→∞时,软标签分布趋近于()
A.均匀分布
B.伯努利分布
C.正态分布
D.狄拉克分布
答案:A
10.使用DeepSpeed进行千亿参数模型训练时,ZeRO3阶段的核心优化是()
A.激活检查点
B.参数分区
C.梯度累积
D.动态损失缩放
答案:B
11.在文本生成任务中,重复惩罚(repetitionpenalty)直接修改的是()
A.嵌入向量
B.logits
C.损失函数
D.梯度
答案:B
12.当采用EarlyStopping时,监控指标连续不改善的容忍次数称为()
A.patience
B.cooldown
C.momentum
D.warmup
答案:A
13.在多任务学习中,UncertaintyWeighting方法由谁提出()
A.Kendalletal.2018
B.Vaswanietal.2017
C.Heetal.2016
D.KingmaBa2015
答案:A
14.下列关于A100GPU的显存带宽,官方标称值最接近()
A.900GB/s
B.1.6TB/s
C.2.0TB/s
D.3.2TB/s
答案:B
15.在PyTorch2.x中,pile默认使用的后端是()
A.TorchScript
B.Inductor
C.XLA
D.TensorRT
答案:B
16.当使用LoRA微调LLM时,可训练参数通常占总参数的()
A.0.1%–1%
B.10%–20%
C.50%
D.100%
答案:A
17.在扩散模型中,DDPM的前向过程是一个()
A.隐马尔可夫链
B.高斯马尔可夫链
C.泊松过程
D.维纳过程
答案:B
18.下列评价指标中,对机器翻译输出长度不敏感的是()
A.BLEU4
B.ROUGEL
C.METEOR
D.chrF++
答案:D
19.在模型并行中,PipelineBubble的大小与哪个因素成正比()
A.微批次数量
B.阶段数量
C.学习率
D.梯度累积步数
答案:B
20.当使用FlashAttention时,内存复杂度从O(n2)降至()
A.O(n)
B.O(logn)
C.O(nlogn)
D.O(1)
答案:A
21.在RLHF中,PPOClip的目标函数中ε通常取值()
A.0.01
B.0.1
C.0.2
原创力文档

文档评论(0)