2026年深度学习工程师考试题库(附答案和详细解析)(0221).docxVIP

  • 2
  • 0
  • 约7.88千字
  • 约 11页
  • 2026-04-21 发布于江苏
  • 举报

2026年深度学习工程师考试题库(附答案和详细解析)(0221).docx

深度学习工程师考试试卷(总分100分)

一、单项选择题(共10题,每题1分,共10分)

以下哪种激活函数能够有效缓解梯度消失问题?

A.Sigmoid

B.Tanh

C.ReLU

D.Linear

答案:C

解析:ReLU(修正线性单元)的导数在输入大于0时恒为1,避免了Sigmoid和Tanh在输入较大或较小时导数趋近于0的问题(梯度消失),因此能有效缓解梯度消失。Sigmoid(A)和Tanh(B)的导数最大值分别为0.25和1,深层网络中易累积导致梯度消失;Linear(D)无激活作用,无法引入非线性。

在训练深度学习模型时,“早停(EarlyStopping)”主要用于解决以下哪个问题?

A.梯度爆炸

B.过拟合

C.欠拟合

D.计算资源不足

答案:B

解析:早停通过在验证集性能不再提升时停止训练,防止模型过度学习训练数据的噪声,是缓解过拟合的常用方法。梯度爆炸(A)通常通过梯度裁剪解决;欠拟合(C)需增加模型复杂度;计算资源不足(D)与训练策略无关。

以下哪项是Transformer模型中“多头注意力(Multi-HeadAttention)”的核心作用?

A.减少参数量

B.并行计算不同子空间的注意力

C.增强位置信息

D.替代前馈神经网络

答案:B

解析:多头注意力将输入分成多个头,并行计算不同子空间的注意力分布,使模型能捕捉多维度的依赖关

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档