网站大量收购独家精品文档,联系QQ:2885784924

题库深度学习面试题型介绍及解析--第7期.pdfVIP

题库深度学习面试题型介绍及解析--第7期.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

题库深度学习面试题型介绍及解析--第7期

1.简述激活函数的作用

使用激活函数的目的是为了向网络中加入非线性因素;加强网络

的表示能力,解决线性模型无法解决的问题

2.那为什么要使用非线性激活函数?

为什么加入非线性因素能够加强网络的表示能力?——神经网络

的万能近似定理

神经网络的万能近似定理认为主要神经网络具有至少一个非线性

隐藏层,那么只要给予网络足够数量的隐藏单元,它就可以以任意的

精度来近似任何从一个有限维空间到另一个有限维空间的函数。

如果不使用非线性激活函数,那么每一层输出都是上层输入的线

性组合;此时无论网络有多少层,其整体也将是线性的,这会导致失

去万能近似的性质

但仅部分层是纯线性是可以接受的,这有助于减少网络中的参数。

3.如何解决训练样本少的问题?

1.利用预训练模型进行迁移微调(fine-tuning),预训练模型通

常在特征上拥有很好的语义表达。此时,只需将模型在小数据集上进

行微调就能取得不错的效果。CV有ImageNet,NLP有BERT等。

2.数据集进行下采样操作,使得符合数据同分布。

3.数据集增强、正则或者半监督学习等方式来解决小样本数据集

的训练问题。

4.如何提升模型的稳定性?

1.正则化(L2,L1,dropout):模型方差大,很可能来自于过拟

合。正则化能有效的降低模型的复杂度,增加对更多分布的适应性。

2.前停止训练:提前停止是指模型在验证集上取得不错的性能时

停止训练。这种方式本质和正则化是一个道理,能减少方差的同时增

加的偏差。目的为了平衡训练集和未知数据之间在模型的表现差异。

3.扩充训练集:正则化通过控制模型复杂度,来增加更多样本的

适应性。

4.特征选择:过高的特征维度会使模型过拟合,减少特征维度和

正则一样可能会处理好方差问题,但是同时会增大偏差。

5.你有哪些改善模型的思路?

1.数据角度

增强数据集。无论是有监督还是无监督学习,数据永远是最重要

的驱动力。更多的类型数据对良好的模型能带来更好的稳定性和对未

知数据的可预见性。对模型来说,“看到过的总比没看到的更具有判

别的信心”。

2.模型角度

模型的容限能力决定着模型可优化的空间。在数据量充足的前提

下,对同类型的模型,增大模型规模来提升容限无疑是最直接和有效

的手段。

3.调参优化角度

如果你知道模型的性能为什么不再提高了,那已经向提升性能跨

出了一大步。超参数调整本身是一个比较大的问题。一般可以包含模

型初始化的配置,优化算法的选取、学习率的策略以及如何配置正则

和损失函数等等。

4.训练角度

在越大规模的数据集或者模型上,诚然一个好的优化算法总能加

速收敛。但你在未探索到模型的上限之前,永远不知道训练多久算训

练完成。所以在改善模型上充分训练永远是最必要的过程。充分训练

的含义不仅仅只是增大训练轮数。有效的学习率衰减和正则同样是充

分训练中非常必要的手段。

6.LSTM可以使用别的激活函数吗?

关于激活函数的选取,在LSTM中,遗忘门、输入门和输出门使

用Sigmoid函数作为激活函数;在生成候选记忆时,使用双曲正切函

数Tanh作为激活函数。

值得注意的是,这两个激活函数都是饱和的,也就是说在输入达

到一定值的情况下,输出就不会发生明显变化了。如果是用非饱和的

激活函数,例如ReLU,那么将难以实现门控的效果。

Sigmoid函数的输出在0~1之间,符合门控的物理定义。且当输

入较大或较小时,其输出会非常接近1或0,从而保证该门开或关。在

生成候选记忆时,使用Tanh函数,是因为其输出在?1~1之间,这与

大多数场景下特征分布是0中心的吻合。此外,Tanh函数在输入为0

附近相比Sigmoid函数有更大的梯度,通常使模型收敛更快。

激活函数的选择也不是一成不变的,但要选择合理的激活函数。

7.如何提高深

文档评论(0)

xchun + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档