- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
题库深度学习面试题型介绍及解析--第7期
1.简述激活函数的作用
使用激活函数的目的是为了向网络中加入非线性因素;加强网络
的表示能力,解决线性模型无法解决的问题
2.那为什么要使用非线性激活函数?
为什么加入非线性因素能够加强网络的表示能力?——神经网络
的万能近似定理
神经网络的万能近似定理认为主要神经网络具有至少一个非线性
隐藏层,那么只要给予网络足够数量的隐藏单元,它就可以以任意的
精度来近似任何从一个有限维空间到另一个有限维空间的函数。
如果不使用非线性激活函数,那么每一层输出都是上层输入的线
性组合;此时无论网络有多少层,其整体也将是线性的,这会导致失
去万能近似的性质
但仅部分层是纯线性是可以接受的,这有助于减少网络中的参数。
3.如何解决训练样本少的问题?
1.利用预训练模型进行迁移微调(fine-tuning),预训练模型通
常在特征上拥有很好的语义表达。此时,只需将模型在小数据集上进
行微调就能取得不错的效果。CV有ImageNet,NLP有BERT等。
2.数据集进行下采样操作,使得符合数据同分布。
3.数据集增强、正则或者半监督学习等方式来解决小样本数据集
的训练问题。
4.如何提升模型的稳定性?
1.正则化(L2,L1,dropout):模型方差大,很可能来自于过拟
合。正则化能有效的降低模型的复杂度,增加对更多分布的适应性。
2.前停止训练:提前停止是指模型在验证集上取得不错的性能时
停止训练。这种方式本质和正则化是一个道理,能减少方差的同时增
加的偏差。目的为了平衡训练集和未知数据之间在模型的表现差异。
3.扩充训练集:正则化通过控制模型复杂度,来增加更多样本的
适应性。
4.特征选择:过高的特征维度会使模型过拟合,减少特征维度和
正则一样可能会处理好方差问题,但是同时会增大偏差。
5.你有哪些改善模型的思路?
1.数据角度
增强数据集。无论是有监督还是无监督学习,数据永远是最重要
的驱动力。更多的类型数据对良好的模型能带来更好的稳定性和对未
知数据的可预见性。对模型来说,“看到过的总比没看到的更具有判
别的信心”。
2.模型角度
模型的容限能力决定着模型可优化的空间。在数据量充足的前提
下,对同类型的模型,增大模型规模来提升容限无疑是最直接和有效
的手段。
3.调参优化角度
如果你知道模型的性能为什么不再提高了,那已经向提升性能跨
出了一大步。超参数调整本身是一个比较大的问题。一般可以包含模
型初始化的配置,优化算法的选取、学习率的策略以及如何配置正则
和损失函数等等。
4.训练角度
在越大规模的数据集或者模型上,诚然一个好的优化算法总能加
速收敛。但你在未探索到模型的上限之前,永远不知道训练多久算训
练完成。所以在改善模型上充分训练永远是最必要的过程。充分训练
的含义不仅仅只是增大训练轮数。有效的学习率衰减和正则同样是充
分训练中非常必要的手段。
6.LSTM可以使用别的激活函数吗?
关于激活函数的选取,在LSTM中,遗忘门、输入门和输出门使
用Sigmoid函数作为激活函数;在生成候选记忆时,使用双曲正切函
数Tanh作为激活函数。
值得注意的是,这两个激活函数都是饱和的,也就是说在输入达
到一定值的情况下,输出就不会发生明显变化了。如果是用非饱和的
激活函数,例如ReLU,那么将难以实现门控的效果。
Sigmoid函数的输出在0~1之间,符合门控的物理定义。且当输
入较大或较小时,其输出会非常接近1或0,从而保证该门开或关。在
生成候选记忆时,使用Tanh函数,是因为其输出在?1~1之间,这与
大多数场景下特征分布是0中心的吻合。此外,Tanh函数在输入为0
附近相比Sigmoid函数有更大的梯度,通常使模型收敛更快。
激活函数的选择也不是一成不变的,但要选择合理的激活函数。
7.如何提高深
文档评论(0)