深度学习面试题及答案.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

深度学习面试题及答案

1.为什么ReLU激活函数比Sigmoid、Tanh更常用?

答:主要有三个核心原因。首先是缓解梯度消失:Sigmoid和Tanh在输入绝对值大时,导数会趋近于0,反向传播时梯度容易衰减,深层网络就训不动了;而ReLU在输入为正时导数是1,梯度能有效传递。其次是计算效率高:ReLU只需要判断输入是否大于0,不用算指数、除法这些复杂操作,比Sigmoid的1/(1+e^-x)快很多。最后是减少过拟合风险:ReLU会让部分神经元输出为0(“死亡神经元”),相当于随机稀疏化,一定程度上降低了模型复杂度。

不过ReLU也有缺点,比如训练中可能出现神经元永久“死亡”(输入长期为负,梯度一直是0,参数更不动),所以实际常用它的变种,比如LeakyReLU(输入负时给个小斜率,比如0.01)、ELU。

2.梯度下降的几种变种(SGD、Mini-batchSGD、Adam)有什么区别?实际项目里怎么选?

答:先讲区别:

普通SGD是每次用全量数据算梯度再更新参数,优点是梯度稳定,但数据量大时(比如百万级样本),每次计算都很慢,而且容易卡在局部最优。

Mini-batchSGD是每次抽一小批数据(比如32、64、128个样本)算梯度,兼顾了速度和梯度稳定性,是现在最基础的优化方式,但学习率得自己调,而且可能在最优值附近震荡。

Adam是在SGD基础上加了两个改进:一是用动量(Momentum),积累之前的梯度方向,减少震荡(比如下山时顺着惯性走,不容易来回晃);二是自适应学习率(像RMSprop那样),对不同参数用不同的学习率(比如稀疏参数更新时学习率大一点)。所以Adam收敛快,调参成本低,不用怎么纠结学习率。

实际选的话:如果数据量小、模型简单,用SGD也能跑;大部分场景优先用Adam,尤其是初搭模型时,能快速看到效果;如果追求更优的最终精度,比如竞赛后期,可能会用Mini-batchSGD+学习率衰减,慢慢磨模型,但需要多调参。

3.CNN里的卷积层和池化层分别起什么作用?为什么要有池化层?

答:卷积层的核心是“特征提取”。它用卷积核(比如3x3的小矩阵)在输入图像上滑动,计算局部区域的加权和,本质是捕捉局部特征——比如浅层卷积核抓边缘、纹理,深层抓眼睛、鼻子这种复杂特征。而且卷积有参数共享的特点:一个卷积核在整幅图上用同一个参数,大大减少了模型参数,避免过拟合。

池化层的作用是“降维+增强鲁棒性”。比如最大池化(取2x2区域里的最大值),能把特征图的尺寸缩小一半(宽高各除以2),这样后续计算量就少了,还能防止过拟合;同时,池化会忽略局部微小的位置变化(比如图片里的猫稍微挪了一点),模型还能识别出来,这就是鲁棒性。

不过现在有些模型会用“步长大于1的卷积”代替池化,比如ResNet,这样既能降维,又能保留更多特征信息,避免池化造成的信息丢失。

4.训练模型时出现过拟合,除了dropout,还有哪些解决办法?

答:过拟合就是模型在训练集上表现好,在测试集上差,本质是模型学了训练集的噪声,泛化能力差。除了dropout,常用的办法有这些:

数据层面:最根本的是加数据,比如用数据增强(图片的翻转、裁剪、加噪声,文本的同义词替换),或者用生成模型(GAN)造假数据,让模型见更多样的样本。

模型层面:简化模型,比如减少神经网络的层数、减少卷积核数量,或者用正则化(L1、L2)——L2正则化是给损失函数加参数的平方和(权重衰减),让参数不会太大,避免模型“走极端”;L1是加参数的绝对值,会让部分参数变成0,实现稀疏化。

训练层面:早停(EarlyStopping),就是训练时盯着验证集的loss,一旦验证集loss连续几轮不下降甚至上升,就停止训练,避免继续学噪声;还有批量归一化(BN),也能一定程度抑制过拟合,因为它让每一层的输入分布更稳定,模型不用过度适应训练集的分布。

其他:比如用迁移学习,基于预训练模型(比如ImageNet上训好的ResNet)微调,预训练模型已经学了通用特征,不用从零开始训,能减少过拟合。

5.Transformer里的自注意力(Self-Attention)机制是怎么工作的?为什么需要位置编码?

答:自注意力的核心是“让句子里的每个词都关注其他词,计算它们之间的关联度”,具体步骤大概是这样:

对每个词的嵌入向量(Embedding),生成三个向量:Q(查询向量,用来问“我要找什么”)、K(键向量,用来“被查询”)、V(值向量,用来“提供信息”),这三个向量是通过Embedding乘三个不同的权重矩阵得到的。

计算注意力得分:

文档评论(0)

151****9429 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档