- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
深度学习;一、深度学习简介;1、智能的定义
;进化关键:繁殖、变异、筛选的动态循环
关键在于,关联的更新速度环境的变化速度。;刚刚的描述是蛋白质层面上的低等智能,通过自我繁殖来进行进化。自然界无法瞬间产生尤其复杂的功能,高等智能都是由低等智能迭代生成的。高等智能最具代表性的就是可以思索。不过思索的原理实在难以解读。还是用老措施,转而问为何会进化出意识容许我们思索,它可以处理什么问题?
由于环境的变化是随机的,因此进化并没有方向,不过却有增长差异性的趋势。通过自我复制的方式,可以产生的差异性还是较弱。因此自然界慢慢的开始形成了有性繁殖,两个不一样的个体进行交配,增长子代的差异性。不过有性繁殖使得大范围移动成为了必然需求。环境会伴随移动而变化,个体在上一环境中通过自然学习所学习到的关联,在下一种环境并不合用。;需要新的学习方式:
?生长周期:无法自然选择试错
?大脑模拟:预测未来事件
?神经网络:寻找过去事件到未来事件的关联f(任意两个空间)
;2、神经网络
2.1、神经元
;2025/9/6;?;
每层神经网络的数学理解:用线性变换跟伴随非线性变化,将输入空间投向另一种空间。;?;2.2、理解视角
目前我们懂得了每一层的行为,但这种行为又是怎样完毕识别任务的呢?
2.2.1、数学视角:“线性可分”
二维情景:
平面的四个象限也是线性可分。但上图的红蓝两条线就无法找到一超平面去分割。
神经网络的处理措施是用所说的5种空间变换操作转换到此外一种空间下。例如通过放大、平移、旋转、扭曲原二维空间后,在三维空间下就可以成功找到一种超平面分割红蓝两线(同SVM的思绪同样)。;上面是一层神经网络可以做到的,假如把一层神经网络的输出当做新的输入再次用这5种操作进行第二遍空间变换的话,网络也就变为了二层。设想网络拥有诸多层时,对原始输入空间的“扭曲力”会大幅增长,如下图,最终我们可以轻松找到一种超平面分割空间。
当然也有如下图失败的时候,关键在于“怎样扭曲空间”。所谓监督学习就是予???神经网络网络大量的训练例子,让网络从训练例子中学会怎样变换空间。每一层的权重W就控制着怎样变换空间,我们最终需要的也就是训练好的神经网络的所有层的权重矩阵。
线性可分视角:神经网络的学习就是学习怎样运用矩阵的线性变换加激活函数的非线性变换,将原始输入空间投向线性可分/稀疏的空间去分类/回归。
增长节点数:增长维度,即增长线性转换能力。
增长层数:增长激活函数的次数,即增长非线性转换次数。;2.2.2、物理视角:“物质构成”
回忆上文由碳氧原子通过不一样组合形成若干分子的例子。从分子层面继续迭代这种组合思想,可以形成DNA,细胞,组织,器官,最终可以形成一种完整的人。不一样层级之间都是以类似的几种规则再不停形成新物质。
例子:人脸识别
;
物质构成视角:神经网络的学习过程就是学习物质构成方式的过程。
增长节点数:增长同一层物质的种类,例如118个元素的原子层就有118个节点。
增长层数:增长更多层级,例如分子层,原子层,器官层,并通过判断更抽象的概念来识别物体。
;2.3、神经网络的训练
神经网络的学习过程就是学习控制着空间变换方式(物质构成方式)的权重矩阵W,那怎样学习每一层的权重矩阵W呢?
2.3.1、激活函数
激活函数的重要作用是提供网络的非线性建模能力。假如没有激活函数,那么该网络仅可以体现线性映射,此时即便有再多的隐藏层,其整个网络跟单层神经网络也是等价的。因此也可以认为,只有加入了激活函数之后,深度神经网络才具有了分层的非线性映射学习能力。
可微性:当优化措施是基于梯度的时候,这个性质是必须的。
单调性:当激活函数是单调的时候,单层网络可以保证是凸函数。
输出值的范围:当激活函数输出值是有限的时候,基于梯度的优化措施会愈加稳定,由于特性的表达受有限权值的影响更明显;当激活函数的输出是无限的时候,模型的训练会愈加高效。;Sigmoid
此外,sigmoid函数的输出均不小于0,使得输
出不是0均值,这称为偏移现象,这会导致后
一层的神经元将得到上一层输出的非0均值的
信号作为输入。;Tanh
tanh也是一种非常常见的激活函数。与sigmoid相比,它的输出均值是0,使得其收敛速度要比sigmoid快,减少迭代次数。然而,从途中可以看出,tanh同样具有软饱和性,从而导致梯度消失。;ELU
;2.3.2、损失函数
我们但愿网络的输出尽量的靠近真正想要预测的值。那么就可以通过比较目前网络的预测值和我们真正想要的目的值,再根据两者的差异状况来更新每一层的权重矩阵。因此就
文档评论(0)