- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
理解玻尔兹曼机和深度学习 - 副本
侯越先 天津大学网络智能信息技术研究所 2014-11-03 训练波尔兹曼机:-Maximum Likelihood and Contrastive Divergence ML目标:最大化log似然函数 随机梯度方法 ? 分别表示在样本分布稳态分布和迭代次的近似稳态分布上的期望值 ? 正Gibbs采样: ? 负Gibbs采样: ? CD-m:使用近似梯度 ? 受限波尔兹曼机(RBM)-迭代映像算法(IP) 为所有RBM稳态分布的集合 为正Gibbs采样的样本分布的集合 ? 最小化KL距离: 背景分布 边际稳态分布 ? 任务:5个显式变量概率密度估计 受限波尔兹曼机-迭代映像算法(IP) 基于CIF的模型选择 最小化模型误差?最大保持Fisher信息距离 如何区分可信参数及非可信参数? 对Fisher信息距离的贡献程度大小 结论:对于布尔分布,BM为同等参数规模下的最优模型。 对BM的模型选择---无隐含节点 参数过多?模型复杂?过度拟合样本 权衡:模型复杂度 vs 保留的样本信息 保留可信参数,约减非可信参数 a b c d a b c d 现在我们考虑一个一般的玻尔兹曼机,及其参数空间。每个节点处于激发态还是抑制态由相连的节点状态和边权联合决定,激发函数为sigmoid函数。BM模型可以直接重参数化为[\theta]坐标系 理解玻尔兹曼机和深度学习 动机 解释玻尔兹曼机(BM)和深度学习(DL)模型的经验成功 启发面向维数约简、信息抽象和去噪应用的新颖方法和模型 存在的解释 神经生理解释 通用近似解释(可近似性和近似复杂性) 规则化解释 我们的观点 现有解释中包含了有益的启发 现有解释远不完备,玻尔兹曼机和深度学习的有效性需要基于“第一原则”的形式化澄清 信息几何为形式化解释提供了理论工具 维数约简、信息抽象和去噪的“第一原则” 第一原则:维数约简、信息抽象和去噪应该尽可能地保留数据中的主要信息,同时滤除噪声或次要信息 “第一原则”能否被一般地实现? 存在的方法 常用维数约简、信息抽象和去噪算法实现了“第一原则”吗? 例子:PCA 例子:低通滤波 反思 基于特征空间的模型似乎都建议在特定先验假设之上 为了更一般地实现维数约简、信息抽象和去噪目的,有必要考虑替换的数据表示空间 我们的基本思路 考虑数据的参数空间! 一般地定义生成模型的参数的相对重要性 根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪 例子:log-linear分布族与高斯分布 满足 ? ? ? ? ? ? ? 参数约减! 关键技术问题 如何一般地定义参数的相对重要性? 解决方案: 1 定义概率分布或密度之间的距离度量 2 由参数相对于距离度量的重要性给出参数之间的相对重要性 度量概率分布(或密度)之间距离的“公理” 1 满足基本的度量三公理 2 似然一致性:可有效反映统计推断的似然性 度量概率分布(或密度)之间距离的“公理”(续1) 3 重参数化不变性 对于概率分布(或密度)和的任两种参数化和,均有 这里是距离度量 ? ? 度量概率分布(或密度)之间距离的“公理”(续2) 4 相对于变量集上的随机映像的单调性: (1) 如果随机映像对应于充分统计量,则距离度量不变 (2) 否则,距离度量减小 是否存在同时满足上述所有公理的距离度量? 存在且唯一! 里程碑: 1 Fisher (Early 1930) 2 Rao (1945) 3 Cencov (1982) Fisher-Rao度量 单参数定义 多参数定义 ? ? Fisher-Rao距离(信息距离) 局域定义: 全局定义: ? ? Cramer-Rao下界与Fisher-Rao度量的似然一致性 Fisher信息决定了参数无偏估计的方差下界 单参数情形 多参数情形 由参数估计的渐进正态性及渐进有效性,可直接说明Fisher-Rao度量对应于参数被“误估计”的可能性(似然一致性) ? ? 参数约简基本思路(Refined) 1 特征空间 --- 参数空间 2 利用参数的Fisher信息,定义参数的相对重要性 3 根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪 可信信息优先原则(Confident Information First)! 实例:n布尔变量分布 个布尔型随机变量 个布尔型随机变量的参数化中的任意项,这里表示,其余类似 如何对上述分布应用CIF原则? ? 实例:n布尔变量分布(续1) 技术困难:各个
您可能关注的文档
- 假设和利率计算方法 - 副本.ppt
- 建设用地管理和土地征收报批 - 副本.ppt
- 建设中国特色社会主义总依据 - 副本.ppt
- 建筑业2014年统计年报和2015年定期报表培训 - 副本.ppt
- 江淮乘用车品牌加盟评审材料 - 副本.ppt
- 江苏大学图书馆书目检索系统 - 副本.ppt
- 江苏国土资源综合统计工作会议 - 副本.ppt
- 江苏幼儿园专用活动室装备标准.doc
- 江西寻乌城关小学黎小慧 - 副本.ppt
- 交流绕组及其电动势和磁动势 - 副本.ppt
- 2-红河州建筑施工安全生产标准化工地复核评分表(2022年修改版).docx
- 6.锡通项目2018年下半年工作会汇报材料(2018.7.9).docx
- 2018道路工程知识点汇总(新版).docx
- 附件3:月度生产例会安全汇报资料-站台门项目部.docx
- 附件2:广东建工集团2018年度科技成果汇总表.DOC
- 马武停车区、三汇停车区停车位管理系统,0#台账缺量.doc
- 攀成钢委办发〔2015〕19号(党风廉政建设责任考核与追究办法).doc
- 1-红河州建筑工程质量管理标准化复核评分表(2022年修改版).docx
- 中交第三公路工程局第四工程分公司项目经济合同结算管理办法(修订).doc
- 厂站安全操作规程汇编.doc
文档评论(0)