- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
理解玻爾兹曼机和深度学习
理解玻尔兹曼机和深度学习
侯越先
天津大学网络智能信息技术研究所
2014-11-03
1
动机
解释玻尔兹曼机(BM)和深度学习(DL)模型的经验成功
启发面向维数约简、信息抽象和去噪应用的新颖方法和模型
2
存在的解释
神经生理解释
通用近似解释(可近似性和近似复杂性)
规则化解释
3
我们的观点
现有解释中包含了有益的启发
现有解释远不完备,玻尔兹曼机和深度学习的有效性需要基于“第一原则”的形式化澄清
信息几何为形式化解释提供了理论工具
4
维数约简、信息抽象和去噪的“第一原则”
第一原则:维数约简、信息抽象和去噪应该尽可能地保留数据中的主要信息,同时滤除噪声或次要信息
“第一原则”能否被一般地实现?
5
存在的方法
常用维数约简、信息抽象和去噪算法实现了“第一原则”吗?
例子:PCA
例子:低通滤波
6
反思
基于特征空间的模型似乎都建议在特定先验假设之上
为了更一般地实现维数约简、信息抽象和去噪目的,有必要考虑替换的数据表示空间
7
我们的基本思路
考虑数据的参数空间!
一般地定义生成模型的参数的相对重要性
根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪
8
例子:log-linear分布族与高斯分布
9
满足
?
?
?
?
?
?
?
参数约减!
关键技术问题
如何一般地定义参数的相对重要性?
解决方案:
1 定义概率分布或密度之间的距离度量
2 由参数相对于距离度量的重要性给出参数之间的相对重要性
10
度量概率分布(或密度)之间距离的“公理”
1 满足基本的度量三公理
2 似然一致性:可有效反映统计推断的似然性
11
度量概率分布(或密度)之间距离的“公理”(续1)
3 重参数化不变性
对于概率分布(或密度)和的任两种参数化和,均有
这里是距离度量
?
12
?
度量概率分布(或密度)之间距离的“公理”(续2)
4 相对于变量集上的随机映像的单调性:
(1) 如果随机映像对应于充分统计量,则距离度量不变
(2) 否则,距离度量减小
13
是否存在同时满足上述所有公理的距离度量?
存在且唯一!
里程碑:
1 Fisher (Early 1930)
2 Rao (1945)
3 Cencov (1982)
14
Fisher-Rao度量
单参数定义
多参数定义
15
?
?
Fisher-Rao距离(信息距离)
局域定义:
全局定义:
16
?
?
Cramer-Rao下界与Fisher-Rao度量的似然一致性
Fisher信息决定了参数无偏估计的方差下界
单参数情形
多参数情形
由参数估计的渐进正态性及渐进有效性,可直接说明Fisher-Rao度量对应于参数被“误估计”的可能性(似然一致性)
17
?
?
参数约简基本思路(Refined)
1 特征空间 --- 参数空间
2 利用参数的Fisher信息,定义参数的相对重要性
3 根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪
可信信息优先原则(Confident Information First)!
18
实例:n布尔变量分布
个布尔型随机变量
个布尔型随机变量的参数化中的任意项,这里表示,其余类似
如何对上述分布应用CIF原则?
?
19
实例:n布尔变量分布(续1)
技术困难:各个p参数具有相等的Fisher信息
解决办法:寻找替换的参数表示(利用信息几何)
20
实例:n布尔变量分布(续2)
布尔变量分布的坐标表示(即参数化)
坐标:-1个归一化的正数
坐标:
坐标:
?
21
?
实例:n布尔变量分布(续3)
混合坐标:
(l-分割混合坐标)
在混合坐标系下,参数谱系的信息含量(Fisher信息)可建立显著的层次结构,且低Fisher信息含量的参数可自然地确定中立值!
?
22
玻尔兹曼机与n布尔变量分布
随机神经网络,
网络的整体能量函数:
玻尔兹曼-吉布斯分布:
?
?
?
?
?
BM模型参数
?
?
?
?
23
玻尔兹曼机与CIF原则(1)
结论1(Amari et. al. , 1992):给定目标概率分布:
单层波尔兹曼机(SBM)实现了2-分割混合坐标
上的参数剪切,即:
l-分割混合坐标
24
?
?
玻尔兹曼机与C
您可能关注的文档
最近下载
- 文明用语班会课件.pptx VIP
- 2024年中国高血压防治指南解读 PPT课件.pptx VIP
- 《精密机械与仪器》课程设计--压力表的结构设计.doc VIP
- 《致大海》课件(共42张PPT)-高中语文选择性必修 中册课件.pptx VIP
- 2025年天津大学福州国际联合学院科研管理与成果转化岗人员招聘备考题库及1套完整答案详解.docx VIP
- 2025年浙江省高职单招单考《农艺类》试卷 完整版231.pdf VIP
- 社区呼吸道感染.ppt VIP
- 国有企业内部薪酬如何分配?人社部办公厅印发的这份《指引》值得参考!.doc VIP
- 团队角色自测问卷.pdf VIP
- 2025年广东省广播电视网络股份有限公司招聘笔试参考题库附带答案详解.pdf
原创力文档


文档评论(0)