一种深度学习的快速学习算法.docxVIP

下载本文档

19
0
约 17页
2016-11-17 发布于湖北
举报
版权申诉

一种深度学习的快速学习算法.docx

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种深度学习的快速学习算法 Hinton, G. E., Osindero, S. and Teh, Y. 摘要：我们展示了如何使用“先验的补充”，以消除解释离开的影响，使在有许多隐藏层密集相连的信念网推理困难。使用互补先验，推导一种快速，贪心算法，可以在一个时间学习深，有向信任网络一层，设置在顶部两层形成一个无向相联存储器。快速，贪心算法被用来初始化一个较慢的学习过程，使用所述唤醒睡眠算法的对比版本微调的权重。经过微调，有三个隐藏层的网络构成了手写数字图像和它们的标签的联合分布的一个很好的生成模型。这生成模型提供了更好的数字比分类的判别最好的学习方法。低维流形在其上的数字谎言由长沟壑在顶层联存储器的自由能量景观进行建模，这是容易探索这些沟壑通过使用定向的连接，以显示什么相联存储器具有记。 1.介绍学习难以在密集连接的，即有许多隐藏层，因为它是难以推断的隐藏活动的条件分布当给定一个数据矢量定向信念网。变分方法使用简单的近似真实条件分布，但近似值可能是差的，特别是在最深隐藏层，其中事先假定独立性。另外，变学习仍然需要所有一起被了解到的参数，使学习时间差缩放作为参数的数量增加。我们描述了一种模型，其中，顶部的两个隐藏层形成一个无向关联存储器（见图1）和剩余的隐藏层形成，在相联存储器将观测变量的表示变换如图象的象素的向无环图。这种混合模式有一些吸引人的特点： 1.有一个快速的，贪婪的学习算法，可以找到一个相当不错的参数集快，即使在深网络与数以百万计的参数和许多隐藏的图层。 2. 学习算法是无监督，但可以通过学习一个模型，同时生成的标签和数据被施加到标签的数据。 3. 有一个微调算法，学习优良的生成模型优于手写数字的MNIST数据库上判别方法。 4. 生成模型可以很容易地理解在深隐层分布式表示。 5. 需要形成一个知觉推理是既快速又准确。 6. 学习算法是本地：调整突触强度只依赖于突触前和突触后神经元的状态。 7. 沟通是简单的：神经元只需要传达他们随机二进制状态。第2节介绍的想法“互补”之前这正是取消“解释离开”的现象，使推理难以在指挥模式。定向信念网络具有互补先验的一个实例。第3节显示了限制玻耳兹曼机之间和无限向网络使用权并列的等价性。第4节介绍了一种快速，贪婪学习算法的时间构建多层向网络一层。使用变约束它表明，因为每个新层添加，整体生成模型提高。贪心算法有某些相似之处，以提高其重复使用相同的“弱”学习的，但不是每个重新加权数据载体，以保证下一步学习新的东西，它会重新代表它。是，用于构造深定向网的“弱”学习者是本身无向图形模型。第5节指出由快速贪婪算法产生的权重如何能够进行微调使用“上下”算法。这是唤醒休眠算法顿等人的对比版本。（1995），其不从“模式平均”的问题，可能会导致唤醒睡眠算法学习差识别权重受损。第6节显示了一个网络有三个隐藏层并在MNIST一套手写数字约为170万权重模式识别性能。当没有知识的几何设置，并且没有特殊的预处理，网络的推广能力是在101.25％的误差; 000数字网络官方测试集。这被击败最好的反向传播网实现时，不手工精制而成，为这个特殊的应用，他们的1.5％。它也比同一任务支持向量机报告Decoste和Schoelkopf（2002年）的1.4％的误差略胜一筹。最后，第7示出当它不被约束通过视觉输入运行在网络的头脑发生了什么。该网络有一个完整的生成模型，所以很容易寻找到了主意 - 我们只是生成了高级别交涉的图像。整篇文章，我们会考虑网随机二元变量组成，但思想可以推广到其他车型，其中一个变量的数概率是其直连的邻居状态的附加功能（请参阅附录A了解详细信息）。图1：用于模拟数字图像和数字标签的联合分布的网络。在本文中，每个训练情况下由图像和显式类标签的，但在正在进行的工作已经表明，同样的学习算法可以如果“标签”是由一个多层通路的输入是从多个不同的扬声器谱图替换使用话说隔离数字。然后，网络学习，以产生对，它由一个图象，并且在同一数字类的谱图。图2：包含两个独立的，少见的原因是变得高度抗相关，当我们观察到的房子跳一个简单的逻辑的信念网。 10地震节点上的偏置装置，在没有任何观察，此节点是E10倍更可能是又比上。如果地震节点上，叉车节点是关闭的，跳转节点具有0总输入，这意味着它具有偶数几率成为上。这是一个更好的解释，房子比跃升20?的适用如果没有隐藏的原因是活动的赔率观察。但它是一种浪费就开启，既隐藏的原因来解释，因为观察他们两人发生的概率为E-10 E-10= E20.当地震节点开启了“解释离开”为卡车节点证据。 2互补先验客场解释的现象（在网络古尔2所示）进行推理难以在定向信念网。在密集连接的网络，在隐变量的后验分布是棘手除少数特殊情况下，如混合模型或线性模型的加性高斯噪声。马尔可夫链蒙特