- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
神经网络之激活函数(Activation Function)
激活函数,比如:sigmoid、ReLU等等。
为什么需要激活函数?
激活函数都有哪些?都长什么样?有哪些优缺点?
怎么选用激活函数?
impulses carriedWo9 synapse axon from a neuron
impulses carried
Wo
9 synapse axon from a neuron
WqXq
A cartoon drawing of a biological neuron (left) and its mathematical model (right).
Why use activation functions?
激活函数通常有如下一些性质:
?非线性:当激活函数是线性的时候,一个两层的神经网络就可以逼近基本上所有的函数了。但是,如 果激活函数是恒等激活函数的时候(即/(a)=z),就不满足这个性质了,而且如果MLP使用的是恒等 激活函数,那么其实整个网络跟单层神经网络是等价的。
?可微性:当优化方法是基于梯度的时候,这个性质是必须的。
?单调性:当激活函数是单调的时候,单层网络能够保证是凸函数。
? 心):当激活函数满足这个性质的时候,如果参数的初始化是random的很小的值,那么神经网络的 训练将会很高效;如果不满足这个性质,那么就需要很用心的去设置初始值。
?输出值的范围:当激活函数输出值是有限的时候,基于梯度的优化方法会更加稳定,因为特征的表
示受有限权值的影响更显著;当激活函数的输出是无限的时候,模型的训练会更加高效,不过在这种
情况小,一般需要更小的learning rate. 这些性质,也正是我们使用激活函数的原因! Activation Functions.
Sigmoid
Left: Sigmoid non-linearily squashes real numbers to range between [0,1] Right: The tanh non? linearity squashes real numbers to range between [-1,1].
新。
? 函数输出不是以0为中心的。这是不可取的,因为这会导致后一层的神经元将得到上一层输出的非0 均值的信号作为输入。我们更偏向于当激活函数的输入是0时,输出也是0的函数。
产生的一个结果就是:如果数据进入神经元的时候是正的(e.g. x0 elementwise in f^wTx+b),那 么计算出的梯度也会始终都是正的。
当然了,如果你是按batch去训练,那么那个batch可能得到不同的信号,所以这个问题还是可以缓 解一下的。因此,非0均值这个问题虽然会产生一些不好的影响,不过跟上面提到的kill gradients问 题相比还是要好很多的。
tanh
tanh是上图中的右图,可以看出,tanh跟sigmoid还是很像的,实际上,tanh是sigmoid的变形:
tan h(炉 2sigmoid(^-*
与sigmoid不同的是,tanh是0均值的。因此,实际应用中,tanh会比sigmoid更好(毕竟去粗取精了嘛\ tanh函数将一个实数输入映射到卜1,1]范围内,如上图(右)所示。当输入为0时,tanh函数输出为0 ,符合 我们对激活函数的要求。然而,tanh函数也存在梯度饱和问题,导致训练效率低下。
CMS9ew Fsel10 1? 20 26 0 M 40Epochs
CMS
9ew Fsel
10 1? 20 26 0 M 40
Epochs
Left: Rectified Linear Unit (ReLU) activation function, which is zero when x 0 and then linear with slope 1 when x 0? Right: A plot from Krizhevsky et al. (pdf) paper indicating the 6x improvement! in con vergence with the ReLU unit compared to the tanh unit.
心)二/77輕0乂 很显然,从图左可以看出,输入信号vO时,输出都是0 , 0的情况下,输出等于输入。是二维的情况下,
使用ReLU之后的效果如下:
\\\r +6 金 H
相比sigmoid和tanh函数,Relu激活函数的优点在于:
?梯度不饱和。梯度计算公式为:l{x0}。因此在反向传播过程屮,减轻了梯度弥散的问题,神经 网络前几层的参数也可以很快的更新。
? 计算速度快。正向传播过程中,sigmoid和tanh函数计算激活值时需要计算指数,而Relu函数仅
您可能关注的文档
最近下载
- 军事历史(空军工程大学)网课章节测试答案.pdf
- 案例25-李娟利等与张波集资房买卖的合同 纠纷上诉案.docx VIP
- MAYA灯光材质渲染.ppt VIP
- 中西文化对比提升学生视野教学研究课题报告.docx
- 《材质与灯光渲染》教学大纲.docx VIP
- 《角色绑定与动画》教学大纲.docx VIP
- 高标准农田建设项目复核审计服务115页.docx VIP
- 临床输血操作技术规范、输血制度(2025版).pptx VIP
- 部编版四年级上学期语文期末整理分类复习强化练习题〔有答案〕.doc VIP
- 公路养护及占道施工作业安全检查表、人员、车辆、机具设备管理用表、进、出场登记表、安全设施图表.pdf VIP
原创力文档


文档评论(0)