- 0
- 0
- 约7.54千字
- 约 9页
- 2026-07-02 发布于江苏
- 举报
深度学习工程师
一、单项选择题(共10题,每题1分,共10分)
在深度学习模型训练中,为了防止过拟合,通常会在损失函数中添加正则化项。对于L1正则化,其核心作用是促使模型参数趋向于()。A.零B.很大的值C.随机分布D.均匀分布答案:A解析:L1正则化会增加一个绝对值惩罚项,由于绝对值函数在原点处不可导且导数为符号函数,优化过程倾向于将不重要的权重直接缩减为0,从而实现稀疏性。
在Transformer架构中,自注意力机制计算Query、Key和Value矩阵的乘积,其中Query、Key和Value通常是通过将输入向量与()矩阵相乘得到的。A.随机噪声B.权重参数C.偏置项D.归一化系数答案:B解析:在注意力机制中,Q=XW
以下关于梯度下降优化算法的描述中,正确的是()。A.动量法(Momentum)可以加速收敛并跳出局部极小值B.Adam算法是二阶优化算法,通常比SGD收敛更快C.随机梯度下降(SGD)每次参数更新都使用全部训练数据D.RMSProp算法引入了动量项来加速SGD答案:A解析:动量法通过累积过去的梯度信息来更新权重,能有效减少震荡并加速在相关方向上的收敛;Adam是自适应学习率算法,但通常被视为一阶优化算法(结合了动量);SGD每次使用一个样本或一个小批量;RMSProp是Adam的前身,主要解决
原创力文档

文档评论(0)