逐层预训练！.pptVIP

下载本文档

245
0
约4.93千字
约 38页
2016-08-19 发布于天津
举报
版权申诉

逐层预训练！.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

逐层预训练！

问题和思考问题？思考题： 1 由统计机器学习的观点，如何在概念上理解预训练的过程？ 2 由数值优化的观点，如何在概念上理解预训练的过程？ 3 如何证明RBM的激发规则和稳态概率分布互相蕴含？ Autoencoder总结区别于RBMs， Auto-encoders 是确定性 vs. 模型经常是浅层的，训练速度快问题和思考问题？思考题：为何去噪Autoencoder经常可以获得更鲁棒的特征表示？问题和思考问题？思考题：NNLM和Word2Vector模型的工作机理的解释是相当直觉化，尝试给出相对更形式化的解释。 Word2vec的前身 ——神经网络语言模型（NNLM）参数C是|V|*m的矩阵，即为要优化的词向量，每个单词向量的维数为m。优化目标是最大化： Word2vec模型 Mikolov et al, Efficient Estimation of Word Representations in Vector Space, ICLR 2013. Mikolov et al, Distributed Representations of Words and Phrases and their Compositionality, NIPS 2013. /p/word2vec/ 预测：预测： Word2vec优化训练目标：最大化窗口内单词的共现概率训练方法：随机梯度下降降低复杂度： Hierarchical Softmax 将单词分类，省去了计算Softmax分母的时间。 Skip-gram + Hierarchical Softmax w(t-2) w(t-1) w(t+1) w(t+2) M M M M Vocabulary Space (V-dimension) Embedding Space (D-dimension) Shared Projection Matrix Embedding Space (D-dimension) M’ Vocabulary Space (V-dimension) w(t) CopyTo CopyTo CopyTo CopyTo 最大化：计算Softmax分母，需要查找词表中所有单词向量。解决办法：采用Hierarchical Softmax Hierarchical Softmax 可以对词表中每一个词采用Huffman编码。本来需要遍历所有的叶子节点，现在只需要遍历从根节点到一个叶子节点的路径。 * 侯越先网络智能信息技术研究所神经网络及深度学习I（模型、应用篇）主要内容 1、深度学习的动机和挑战为什么要设计深层结构？为什么深层结构很难训练？逐层预训练！ 2、深度信念网络（Deep Belief Nets）受限玻尔兹曼机（Restricted Boltzmann Machines）对比散度（Contrastive Divergence）算法堆叠RBM形成DBN 3、自动编码机（Auto-Encoders） 4、Word2vec Auto-Encoders 堆叠Auto-Encoders 模型：CBOWSkip-gram 优化：Hierarchical Softmax Negative Sampling 导引：深度学习是什么用深层结构来学习高层次特征的一系列方法可训练特征的抽取特征抽取效果比较：从上到下分别是原始图像 30维Autoencoder重构 30维PCA重构大纲深度学习简介为什么要设计深层结构？为什么深层结构很难训练？逐层预训练！深度信念网络（Deep Belief Nets）受限玻尔兹曼机（Restricted Boltzmann Machines）对比散度（Contrastive Divergence）算法堆叠RBM形成DBN 自动编码机（Auto-Encoders） Auto-Encoders 堆叠Auto-Encoders Word2vec简介模型：CBOWSkip-gram 优化：Hierarchical Softmax Negative Sampling 深层结构需要用强非线性函数来得到高层次抽象表示。抽象表示不能过度依赖于不确定因素（如：轻微的视角和光照变化）。经验上，深层结构是获得这种抽象的一种有效方法：各中间层产生更高层次的抽象。更严格的解释？深层结构为什么深层的结构很难训练在经过几次反复的乘法后，可能会趋近于零，形成大尺度的梯度“平坦区”。在反向传播的过程中，梯度很容易消失。深层