深度学习之激活函数.docVIP

下载本文档

4
0
约4.64千字
约 10页
2020-04-07 发布于广东
举报
版权申诉

深度学习之激活函数.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

深度学习激活函数简述在神经元的数学模型中，轴突所携带的信号(例如：x0)通过突触进行传递，由于突触的强弱不一，假设我们以w0表示，那么我们传到下一个神经元的树突处的信号就变成了w0x0。其中突触强弱(参数w)是可学的，它控制了一个神经元对另一个神经元影响的大小和方向（正负）。然后树突接收到信号后传递到神经元内部(cell body)，与其他树突传递过来的信号一起进行加和，如果这个和的值大于某一个固定的阈值的话，神经元就会被激活，然后传递冲激信号给树突。在数学模型中我们假设传递冲激信号的时间长短并不重要，只有神经元被激活的频率用于传递信息。我们将是否激活神经元的函数称为激活函数(activation function f)，它代表了轴突接收到冲激信号的频率。意义激活函数是用来引入非线性因素的。网络中仅有线性模型的话，表达能力不够。比如一个多层的线性网络，其表达能力和单层的线性网络是相同的。网络中卷积层、池化层和全连接层都是线性的，所以，需要在网络中加入非线性的激活函数层。性质激活函数一般具有一下性质：非线性：弥补线性模型的不足；处处可导：反向传播时需要计算激活函数的偏导数，所以要求激活函数除个别点外，处处可导；单调性：当激活函数是单调的时候，单层网络能够保证是凸函数；输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著；当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况下，一般需要更小的learning rate。常见激活函数不同的激活函数效果有好有坏，一般比较常见的激活函数有sigmoid、tanh和Relu，其中Relu由于效果最好，现在使用的比较广泛。 3.1 Sigmoid函数 Sigmoid函数表达式为：它将输入值映射到[0,1]区间内，其函数图像如下图：从数学上来看，非线性的Sigmoid函数对中央区的信号增益较大，对两侧区的信号增益小，在信号的特征空间映射上，有很好的效果。从神经科学上来看，中央区酷似神经元的兴奋态，两侧区酷似神经元的抑制态，因而在神经网络学习方面，可以将重点特征推向中央区，将非重点特征推向两侧区。 sigmoid的优点在于输出范围有限，所以数据在传递的过程中不容易发散。 Sigmoid有一个十分致命的缺点就是它的导数值很小（sigmoid函数导数图像如下图），其导数最大值也只有1/4，而且特别是在输入很大或者很小的时候，其导数趋近于0。这直接导致的结果就是在反向传播中，梯度会衰减的十分迅速，导致传递到前边层的梯度很小甚至消失（kill gradients），训练会变得十分困难。还有就是sigmoid函数的计算相对来说较为复杂（相对后面的relu函数），耗时较长，所以由于这些缺点，现在已经很少有人使用sigmoid函数。另外，Sigmoid的output 不是0均值.?这是不可取的，因为这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入。产生的一个结果就是：如果数据进入神经元的时候是正的(e.g.?x0?elementwise in?f=wTx+b)，那么?w?计算出的梯度也会始终都是正的。?如果按batch去训练，那么batch可能得到不同的信号，所以这个问题可以缓解一下的。因此，非0均值这个问题虽然会产生一些不好的影响，不过跟上面提到的 kill gradients 问题相比还是要好很多的。 3.2 Tanh函数 Tanh函数表达式为：它将输入值映射到[-1,1]区间内，其图像为： Tanh函数是Sigmoid函数的一种变体；与 sigmoid 不同的是，tanh 是0均值的。因此，实际应用中，tanh 会比 sigmoid 更好，但Tanh函数现在也很少使用。 3.3 ReLu(Rectified Linear Units)激活函数 Relu函数为现在使用比较广泛的激活函数，其表达式为当输入x0时，输出为0；当x0时，输出等于输入值。 Relu函数相对于前边2种激活函数，有以下优点： Relu函数的计算十分简单，前向计算时只需输入值和一个阈值（这里为0）比较，即可得到输出值。在反向传播时，Relu函数的导数为，计算也比前边2个函数的导数简单。由于relu函数的导数为，即反向传播时梯度要么为0，要么不变，所以梯度的衰减很小，即使网路层数很深，前边层的收敛速度也不会很慢。 Relu函数也有很明显的缺点，就是在训练的时候，网络很脆弱，很容易出现很多神经元值为0，从而再也训练不动。一般我们将学习率设置为较小值来避免这种情况的发生。为了解决上面的问题，后来又提出很多修正过的模型，比如Leaky-ReLU、Parametric ReLU和Randomized ReLU等，其思想