理解玻爾兹曼机和深度学习.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
理解玻爾兹曼机和深度学习

理解玻尔兹曼机和深度学习 侯越先 天津大学网络智能信息技术研究所 2014-11-03 1 动机 解释玻尔兹曼机(BM)和深度学习(DL)模型的经验成功 启发面向维数约简、信息抽象和去噪应用的新颖方法和模型 2 存在的解释 神经生理解释 通用近似解释(可近似性和近似复杂性) 规则化解释 3 我们的观点 现有解释中包含了有益的启发 现有解释远不完备,玻尔兹曼机和深度学习的有效性需要基于“第一原则”的形式化澄清 信息几何为形式化解释提供了理论工具 4 维数约简、信息抽象和去噪的“第一原则” 第一原则:维数约简、信息抽象和去噪应该尽可能地保留数据中的主要信息,同时滤除噪声或次要信息 “第一原则”能否被一般地实现? 5 存在的方法 常用维数约简、信息抽象和去噪算法实现了“第一原则”吗? 例子:PCA 例子:低通滤波 6 反思 基于特征空间的模型似乎都建议在特定先验假设之上 为了更一般地实现维数约简、信息抽象和去噪目的,有必要考虑替换的数据表示空间 7 我们的基本思路 考虑数据的参数空间! 一般地定义生成模型的参数的相对重要性 根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪 8 例子:log-linear分布族与高斯分布 9 满足 ? ? ? ? ? ? ? 参数约减! 关键技术问题 如何一般地定义参数的相对重要性? 解决方案: 1 定义概率分布或密度之间的距离度量 2 由参数相对于距离度量的重要性给出参数之间的相对重要性 10 度量概率分布(或密度)之间距离的“公理” 1 满足基本的度量三公理 2 似然一致性:可有效反映统计推断的似然性 11 度量概率分布(或密度)之间距离的“公理”(续1) 3 重参数化不变性 对于概率分布(或密度)和的任两种参数化和,均有 这里是距离度量 ? 12 ? 度量概率分布(或密度)之间距离的“公理”(续2) 4 相对于变量集上的随机映像的单调性: (1) 如果随机映像对应于充分统计量,则距离度量不变 (2) 否则,距离度量减小 13 是否存在同时满足上述所有公理的距离度量? 存在且唯一! 里程碑: 1 Fisher (Early 1930) 2 Rao (1945) 3 Cencov (1982) 14 Fisher-Rao度量 单参数定义 多参数定义 15 ? ? Fisher-Rao距离(信息距离) 局域定义: 全局定义: 16 ? ? Cramer-Rao下界与Fisher-Rao度量的似然一致性 Fisher信息决定了参数无偏估计的方差下界 单参数情形 多参数情形 由参数估计的渐进正态性及渐进有效性,可直接说明Fisher-Rao度量对应于参数被“误估计”的可能性(似然一致性) 17 ? ? 参数约简基本思路(Refined) 1 特征空间 --- 参数空间 2 利用参数的Fisher信息,定义参数的相对重要性 3 根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪 可信信息优先原则(Confident Information First)! 18 实例:n布尔变量分布 个布尔型随机变量 个布尔型随机变量的参数化中的任意项,这里表示,其余类似 如何对上述分布应用CIF原则? ? 19 实例:n布尔变量分布(续1) 技术困难:各个p参数具有相等的Fisher信息 解决办法:寻找替换的参数表示(利用信息几何) 20 实例:n布尔变量分布(续2) 布尔变量分布的坐标表示(即参数化) 坐标:-1个归一化的正数 坐标: 坐标: ? 21 ? 实例:n布尔变量分布(续3) 混合坐标: (l-分割混合坐标) 在混合坐标系下,参数谱系的信息含量(Fisher信息)可建立显著的层次结构,且低Fisher信息含量的参数可自然地确定中立值! ? 22 玻尔兹曼机与n布尔变量分布 随机神经网络, 网络的整体能量函数: 玻尔兹曼-吉布斯分布: ? ? ? ? ? BM模型参数 ? ? ? ? 23 玻尔兹曼机与CIF原则(1) 结论1(Amari et. al. , 1992):给定目标概率分布: 单层波尔兹曼机(SBM)实现了2-分割混合坐标 上的参数剪切,即: l-分割混合坐标 24 ? ? 玻尔兹曼机与C

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档