深度学习导论.pptVIP

下载本文档

2
0
约1.26万字
约 43页
2024-04-28 发布于辽宁
举报
版权申诉

深度学习导论.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

现在假设我们只有一个没有带类别标签的训练样本集合。自编码神经网络是一种无监督学习算法，它使用了反向传播算法，并让目标值等于输入值。自编码神经网络尝试学习一个??的函数。换句话说，它尝试逼近一个恒等函数，从而使得输出?接近于输入??。恒等函数虽然看上去不太有学习的意义，但是当我们为自编码神经网络加入某些限制，比如限定隐藏神经元的数量，我们就可以从输入数据中发现一些有趣的结构。举例来说，假设某个自编码神经网络的输入??是一张?图像（共100个像素）的像素灰度值，于是??，其隐藏层?中有50个隐藏神经元。注意，输出也是100维的??。由于只有50个隐藏神经元，我们迫使自编码神经网络去学习输入数据的压缩表示，也就是说，它必须从50维的隐藏神经元激活度向量??中重构出100维的像素灰度值输入??。如果网络的输入数据是完全随机的，比如每一个输入??都是一个跟其它特征完全无关的独立同分布高斯随机变量，那么这一压缩表示将会非常难学习。但是如果输入数据中隐含着一些特定的结构，比如某些输入特征是彼此相关的，那么这一算法就可以发现输入数据中的这些相关性。事实上，这一简单的自编码神经网络通常可以学习出一个跟主元分析（PCA）结果非常相似的输入数据的低维表示。*具体来说，如果我们给隐藏神经元加入稀疏性限制，那么自编码神经网络即使在隐藏神经元数量较多的情况下仍然可以发现输入数据中一些有趣的结构。*换句话说，我们想要让隐藏神经元?j的平均活跃度接近0.05。为了满足这一条件，隐藏神经元的活跃度必须接近于0。*而这一惩罚因子将惩罚那些??和??有显著不同的情况从而使得隐藏神经元的平均活跃度保持在较小范围内。*而贝塔控制稀疏性惩罚因子的权重。*例如，我们可以找到一些函数，这些函数可以用?k层网络简洁地表达出来（这里的简洁是指隐层单元的数目只需与输入单元数目呈多项式关系）。但是对于一个只有?k-1层的网络而言，除非它使用与输入单元数目呈指数关系的隐层单元数目，否则不能简洁表达这些函数。***自编码神经网络是一种无监督学习算法，它使用了反向传播算法，并让目标值等于输入值。事实上，通过以上的学习，隐藏单元就是输入的另一种表示，即特征。当隐藏单元小于输入时，其就相当于PCA进行了压缩。24/42刚才的论述是基于隐藏神经元数量较小的假设。当隐藏神经元的数量较大时，通过给自编码神经网络施加一些其他的限制条件（稀疏性）来发现输入数据中的结构。稀疏性可以被简单地解释如下。如果当神经元的输出接近于1的时候我们认为它被激活，而输出接近于0的时候认为它被抑制，那么使得神经元大部分的时间都是被抑制的限制则被称作稀疏性限制。25/42由此，我们注意到每一层节点的输出其实就是该节点的激活度。则自编码神经网络隐藏神经元?j的激活度为：在此我们加入一条限制：其中，是稀疏性参数，通常是一个接近于0的较小的值（如??）26/42为了实现这一限制，我们将会在我们的优化目标函数中加入一个额外的惩罚因子，惩罚因子的具体形式如下：上面的公式可用相对熵简化为：27/42通过相对熵的变化图，可知：当??时?，，，并且随着??与??之间的差异增大而单调递增。由此可知这一惩罚因子将惩罚那些??和??有显著不同的情况从而使得隐藏神经元的平均活跃度保持在较小范围内。从而使网络变得稀疏。28/42加入稀疏惩罚因子后，可得，我们的总体代价函数为：由此可推得我们的残差计算公式为：这样利用反向传播算法，我们就可以训练稀疏自编码神经网络了。29/42在以上的稀疏自编码神经网络后，加上一个分类器（SVM，Softmax）等，就可以进行分类了。（这是一个浅层结构）那为何还要用深层结构呢？30/42深度网络最主要的优势在于，它能以更加紧凑简洁的方式来表达比浅层网络大得多的函数集合,换言之，它具有更强的表征能力。那我们是否可以将稀疏自编码神经网络堆叠多层，然和加一个分类器，通过反向传播算法来训练网络呢？答案是否定的。31/42主要原因在于：1、数据获取问题：使用上面提到的方法，我们需要依赖于有标签的数据才能进行训练。然而有标签的数据通常是稀缺的，因此对于许多问题，我们很难获得足够多的样本来拟合一个复杂模型的参数。2、局部极值问题：由于其深度较深，使得常常会涉及到求解一个高度非凸的优化问题，非常容易陷入很坏的局部最小。3、梯度弥散问题：由公式我们可知，当深度较深时，残差闯到前面的时候已经非常小了，使得前几层不能有效进行调节，训练速度很慢。32/42那怎么解决这些问题呢？我们知