题库深度学习面试题型介绍及解析--第7期.pdfVIP

下载本文档

0
0
约4千字
约 5页
2024-08-29 发布于河南
举报
版权申诉

题库深度学习面试题型介绍及解析--第7期.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

题库深度学习面试题型介绍及解析--第7期

1.简述激活函数的作用

使用激活函数的目的是为了向网络中加入非线性因素；加强网络

的表示能力，解决线性模型无法解决的问题

2.那为什么要使用非线性激活函数？

为什么加入非线性因素能够加强网络的表示能力？——神经网络

的万能近似定理

神经网络的万能近似定理认为主要神经网络具有至少一个非线性

隐藏层，那么只要给予网络足够数量的隐藏单元，它就可以以任意的

精度来近似任何从一个有限维空间到另一个有限维空间的函数。

如果不使用非线性激活函数，那么每一层输出都是上层输入的线

性组合；此时无论网络有多少层，其整体也将是线性的，这会导致失

去万能近似的性质

但仅部分层是纯线性是可以接受的，这有助于减少网络中的参数。

3.如何解决训练样本少的问题？

1.利用预训练模型进行迁移微调（fine-tuning），预训练模型通

常在特征上拥有很好的语义表达。此时，只需将模型在小数据集上进

行微调就能取得不错的效果。CV有ImageNet，NLP有BERT等。

2.数据集进行下采样操作，使得符合数据同分布。

3.数据集增强、正则或者半监督学习等方式来解决小样本数据集

的训练问题。

4.如何提升模型的稳定性？

1.正则化（L2,L1,dropout）：模型方差大，很可能来自于过拟

合。正则化能有效的降低模型的复杂度，增加对更多分布的适应性。

2.前停止训练：提前停止是指模型在验证集上取得不错的性能时

停止训练。这种方式本质和正则化是一个道理，能减少方差的同时增

加的偏差。目的为了平衡训练集和未知数据之间在模型的表现差异。

3.扩充训练集：正则化通过控制模型复杂度，来增加更多样本的

适应性。

4.特征选择：过高的特征维度会使模型过拟合，减少特征维度和

正则一样可能会处理好方差问题，但是同时会增大偏差。

5.你有哪些改善模型的思路？

1.数据角度

增强数据集。无论是有监督还是无监督学习，数据永远是最重要

的驱动力。更多的类型数据对良好的模型能带来更好的稳定性和对未

知数据的可预见性。对模型来说，“看到过的总比没看到的更具有判

别的信心”。

2.模型角度

模型的容限能力决定着模型可优化的空间。在数据量充足的前提

下，对同类型的模型，增大模型规模来提升容限无疑是最直接和有效

的手段。

3.调参优化角度

如果你知道模型的性能为什么不再提高了，那已经向提升性能跨

出了一大步。超参数调整本身是一个比较大的问题。一般可以包含模

型初始化的配置，优化算法的选取、学习率的策略以及如何配置正则

和损失函数等等。

4.训练角度

在越大规模的数据集或者模型上，诚然一个好的优化算法总能加

速收敛。但你在未探索到模型的上限之前，永远不知道训练多久算训

练完成。所以在改善模型上充分训练永远是最必要的过程。充分训练

的含义不仅仅只是增大训练轮数。有效的学习率衰减和正则同样是充

分训练中非常必要的手段。

6.LSTM可以使用别的激活函数吗？

关于激活函数的选取，在LSTM中，遗忘门、输入门和输出门使

用Sigmoid函数作为激活函数；在生成候选记忆时，使用双曲正切函

数Tanh作为激活函数。

值得注意的是，这两个激活函数都是饱和的，也就是说在输入达

到一定值的情况下，输出就不会发生明显变化了。如果是用非饱和的

激活函数，例如ReLU，那么将难以实现门控的效果。

Sigmoid函数的输出在0～1之间，符合门控的物理定义。且当输

入较大或较小时，其输出会非常接近1或0，从而保证该门开或关。在

生成候选记忆时，使用Tanh函数，是因为其输出在?1～1之间，这与

大多数场景下特征分布是0中心的吻合。此外，Tanh函数在输入为0

附近相比Sigmoid函数有更大的梯度，通常使模型收敛更快。

激活函数的选择也不是一成不变的，但要选择合理的激活函数。

7.如何提高深

您可能关注的文档

文档评论（0）

xchun + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

题库深度学习面试题型介绍及解析--第7期.pdfVIP