基于深度置信网的络的快速学习方法绪论.docxVIP

下载本文档

2
0
约1.49万字
约 22页
2017-05-07 发布于湖北
举报
版权申诉

基于深度置信网的络的快速学习方法绪论.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

A Fast Learning Algorithm for Deep Belief Nets 基于深度置信网的快速学习算法杰弗里·e·辛顿 hinton@cs.toronto.edu 西蒙Osindero osindero@cs.toronto.edu 计算机科学、多伦多大学、加拿大多伦多m5 3 g4 Yee-WhyeTeh tehyw@comp.nus.edu.sg 新加坡国立大学计算机科学系, 新加坡117543 我们介绍了如何使用“complementary priors马尔可夫链中的平衡分布 ”去减少解释在含有许多隐藏的层的紧密连接置信网方面推理比较困难的影响。利用先验互补，倘若最高的两侧形成一个无向联想记忆，我们同时可以得到这样一个含有一个层次的快速贪心算法。快速贪心算法被用来初始化一个慢学习的过程，它通过使用唤醒睡眠算法唤醒睡眠算法是神经网络的无监督学习算法（如乙状结肠信念网）。培训分为两个阶段，“唤醒”和“睡眠”。的对比版本微调权重。微调后，含有三个隐藏层的网络形成一个很好的关于手写数字图像和标签的联合分布的生成模型。相对于最好的判别式算法而言，生成模型给出了更好的数字分类。使用顶层联想记忆的在自由能量景观的长峡谷来对数字谎言的低维流形进行建模，便于我们探讨这些峡谷，通过使用直接连接的方式展示已经形成的联想记忆。 1引言学习紧密连接且含有多个隐藏层定向的信念网的过程是不易的，因为当给定一个数据向量时，它是很难推断隐藏活动的条件分布。对于真实的条件分布，变分方法使用简单的近似值，但近似值可能会很差，特别是在先验假设独立的最深的隐藏层。同时，变量的学习还要求所有的参数在一起学习，这使得学习时间尺度随着参数的数量增加而变得越差。我们描述了一个模型，其中顶部的两个隐含层形成一个无向联想记忆（见图1），其余的隐藏层形成一个有向无环图，将联想记忆的表示转化为可观测变量，比如一个图像的像素。这种混合模型具有一些比较吸引人的特征：这可能是另一种感知器的最高级图1：这种网络用于数字图像和数字标签的联合分布的建模。在这篇文章中，每个训练实例包含一个图像和一个明确的类标签，然而进展中的工作表明，相同的学习算法可以被使用，如果“标签”是由多层通路的输入的光谱图从多个不同的发言者分离数字所替换。则这种网络学习产生包括图像和相同数字类的光谱图对。快速贪心学习算法，可以快速地找到一组比较好的参数，即使对于含有无数的参数和许多隐藏的层的深度网络。学习算法是无监督的，但是可以通过学习一个模型被应用于标记数据，产生标签和数据模型。微调算法是一个很好地生成模型，在对MNIST手写数字数据集处理方面优于判别方法。生成模型在深度隐藏层方面更容易去解释分布式表征方法。推理过程要求形成一个快速而且准确的感知器。学习算法是局部的。突触强度的调整仅取决于突触前和突触后神经元的状态。沟通是简单的。神经元只需要与它们的随机的二进制状态进行沟通。第2节介绍了先验的“互补”的思想，取消“解释”的现象，使得在定向模型中推理变得比较困难。我们给出了一个关于带有先验互补的定向置信网的例子。第3节介绍了受限玻尔兹曼机与带有权重的无限定向网络之间的等价性第4节介绍了一种用于每次在单层构造多层定向网络的快速贪心学习算法。利用变分约束，它显示了当每增加一个新的层时，整体生成模型提高了。在推进重复使用相同的“弱”的学习者方面，贪心算法有些相似之处。但是不是重置每个数据向量去确保下一步学习到新的一些东西。它只是表示它。“弱”的学习者是用来构造深度定向网，它本身是一个无向图模型。第5部分介绍了如何使用自上而下的算法微调快速贪心算法的方式产生权重。与唤醒睡眠算法进行对比，它不会引起导致唤醒睡眠算法去学习差的识别权重这样的“平均模式”问题。第6节介绍了手写体数字在MNIST数据集中，含有三个隐含层和大约1700000个权重的网络的模式识别的性能。如果没有利用几何的相关知识和特殊的数据预处理，在10000个数字的官方测试集中，该网络的泛化性能有1.25%的错误率。当对于这项特殊的应用没有人为的改造时，它比可以错误率达到1.5%的BP网络要好得多。对于同一个任务而言，它也比Decoste和Schoelkopf(2002)提出的支持向量机的错误率达到1.4%要稍微好点。最后，第7节当没有运行被约束的可视化输入时，该网络将会发生怎么的变化。该网络是一个完整的生成模型，所以便于我们可以从高层表示中简单地生成一个图像，而容易地理解它的思想，本文，我们考虑了由随机二进制变量组成的网络，但是这种思想可以被推广应用到其他的模型中，该模型中变量的变量的对数概率的是一个关于它直接连接的邻居状态的加性函数。图2：一个简单的逻辑信念网包含两个独立的，仅有的因素。我们观察房