- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
逐层预训练!
问题和思考 问题? 思考题: 1 由统计机器学习的观点,如何在概念上理解预训练的过程? 2 由数值优化的观点,如何在概念上理解预训练的过程? 3 如何证明RBM的激发规则和稳态概率分布互相蕴含? Autoencoder总结 区别于RBMs, Auto-encoders 是确定性 vs. 模型经常是浅层的,训练速度快 问题和思考 问题? 思考题:为何去噪Autoencoder经常可以获得更鲁棒的特征表示? 问题和思考 问题? 思考题:NNLM和Word2Vector模型的工作机理的解释是相当直觉化,尝试给出相对更形式化的解释。 Word2vec的前身 ——神经网络语言模型(NNLM) 参数C是|V|*m的矩阵,即为要优化的词向量,每个单词向量的维数为m。 优化目标是最大化: Word2vec模型 Mikolov et al, Efficient Estimation of Word Representations in Vector Space, ICLR 2013. Mikolov et al, Distributed Representations of Words and Phrases and their Compositionality, NIPS 2013. /p/word2vec/ 预测: 预测: Word2vec优化 训练目标:最大化窗口内单词的共现概率 训练方法:随机梯度下降 降低复杂度: Hierarchical Softmax 将单词分类,省去了计算Softmax分母的时间。 Skip-gram + Hierarchical Softmax w(t-2) w(t-1) w(t+1) w(t+2) M M M M Vocabulary Space (V-dimension) Embedding Space (D-dimension) Shared Projection Matrix Embedding Space (D-dimension) M’ Vocabulary Space (V-dimension) w(t) CopyTo CopyTo CopyTo CopyTo 最大化: 计算Softmax分母,需要查找词表中所有单词向量。 解决办法: 采用Hierarchical Softmax Hierarchical Softmax 可以对词表中每一个词采用Huffman编码。 本来需要遍历所有的叶子节点,现在只需要遍历从根节点到一个叶子节点的路径。 * 侯越先 网络智能信息技术研究所 神经网络及深度学习I(模型、应用篇) 主要内容 1、深度学习的动机和挑战 为什么要设计深层结构? 为什么深层结构很难训练?逐层预训练! 2、深度信念网络(Deep Belief Nets) 受限玻尔兹曼机(Restricted Boltzmann Machines) 对比散度(Contrastive Divergence)算法 堆叠RBM形成DBN 3、自动编码机(Auto-Encoders) 4、Word2vec Auto-Encoders 堆叠Auto-Encoders 模型:CBOWSkip-gram 优化:Hierarchical Softmax Negative Sampling 导引:深度学习是什么 用深层结构来学习高层次特征的一系列方法 可训练特征的抽取 特征抽取效果比较: 从上到下分别是 原始图像 30维Autoencoder重构 30维PCA重构 大纲 深度学习简介 为什么要设计深层结构? 为什么深层结构很难训练?逐层预训练! 深度信念网络(Deep Belief Nets) 受限玻尔兹曼机(Restricted Boltzmann Machines) 对比散度(Contrastive Divergence)算法 堆叠RBM形成DBN 自动编码机(Auto-Encoders) Auto-Encoders 堆叠Auto-Encoders Word2vec简介 模型:CBOWSkip-gram 优化:Hierarchical Softmax Negative Sampling 深层结构 需要用强非线性函数来得到高层次抽象表示。 抽象表示不能过度依赖于不确定因素(如:轻微的视角和光照变化)。 经验上,深层结构是获得这种抽象的一种有效方法:各中间层产生更高层次的抽象。 更严格的解释? 深层结构 为什么深层的结构很难训练 在经过几次反复的乘法后, 可能会趋近于零,形成大尺度的梯度“平坦区”。 在反向传播的过程中,梯度很容易消失。 深层
您可能关注的文档
最近下载
- 能耗桥画法示例.ppt VIP
- 2024-2030全球高温氨裂解催化剂行业调研及趋势分析报告.docx
- 2025年吉林省中考英语真题卷含答案解析 .pdf VIP
- 23G409先张法预应力混凝土管桩图集.PDF VIP
- P-02 【中信苏宁】资产支持专项计划计划说明书-20141111.pdf VIP
- 中国人寿:养老险总公司招聘笔试题库2025.pdf
- 设计旅游线路课件(共18张PPT)《旅行社计调业务》(中国言实出版社).pptx VIP
- 2025金考卷45套化学新高考版主书.docx
- 1401沟通你我他——大学生人际交往幻灯片课件.ppt VIP
- 循环水泵能耗桥分析与节能改造实践.pptx VIP
文档评论(0)