- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
理解玻尔兹曼机和深度学习.ppt
侯越先 天津大学网络智能信息技术研究所 2014-11-03 训练波尔兹曼机:-Maximum Likelihood and Contrastive Divergence ML目标:最大化log似然函数 随机梯度方法 ? 分别表示在样本分布稳态分布和迭代次的近似稳态分布上的期望值 ? 正Gibbs采样: ? 负Gibbs采样: ? CD-m:使用近似梯度 ? 受限波尔兹曼机(RBM)-迭代映像算法(IP) 为所有RBM稳态分布的集合 为正Gibbs采样的样本分布的集合 ? 最小化KL距离: 背景分布 边际稳态分布 ? 任务:5个显式变量概率密度估计 受限波尔兹曼机-迭代映像算法(IP) 基于CIF的模型选择 最小化模型误差?最大保持Fisher信息距离 如何区分可信参数及非可信参数? 对Fisher信息距离的贡献程度大小 结论:对于布尔分布,BM为同等参数规模下的最优模型。 对BM的模型选择---无隐含节点 参数过多?模型复杂?过度拟合样本 权衡:模型复杂度 vs 保留的样本信息 保留可信参数,约减非可信参数 a b c d a b c d 现在我们考虑一个一般的玻尔兹曼机,及其参数空间。每个节点处于激发态还是抑制态由相连的节点状态和边权联合决定,激发函数为sigmoid函数。BM模型可以直接重参数化为[\theta]坐标系 理解玻尔兹曼机和深度学习 动机 解释玻尔兹曼机(BM)和深度学习(DL)模型的经验成功 启发面向维数约简、信息抽象和去噪应用的新颖方法和模型 存在的解释 神经生理解释 通用近似解释(可近似性和近似复杂性) 规则化解释 我们的观点 现有解释中包含了有益的启发 现有解释远不完备,玻尔兹曼机和深度学习的有效性需要基于“第一原则”的形式化澄清 信息几何为形式化解释提供了理论工具 维数约简、信息抽象和去噪的“第一原则” 第一原则:维数约简、信息抽象和去噪应该尽可能地保留数据中的主要信息,同时滤除噪声或次要信息 “第一原则”能否被一般地实现? 存在的方法 常用维数约简、信息抽象和去噪算法实现了“第一原则”吗? 例子:PCA 例子:低通滤波 反思 基于特征空间的模型似乎都建议在特定先验假设之上 为了更一般地实现维数约简、信息抽象和去噪目的,有必要考虑替换的数据表示空间 我们的基本思路 考虑数据的参数空间! 一般地定义生成模型的参数的相对重要性 根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪 例子:log-linear分布族与高斯分布 满足 ? ? ? ? ? ? ? 参数约减! 关键技术问题 如何一般地定义参数的相对重要性? 解决方案: 1 定义概率分布或密度之间的距离度量 2 由参数相对于距离度量的重要性给出参数之间的相对重要性 度量概率分布(或密度)之间距离的“公理” 1 满足基本的度量三公理 2 似然一致性:可有效反映统计推断的似然性 度量概率分布(或密度)之间距离的“公理”(续1) 3 重参数化不变性 对于概率分布(或密度)和的任两种参数化和,均有 这里是距离度量 ? ? 度量概率分布(或密度)之间距离的“公理”(续2) 4 相对于变量集上的随机映像的单调性: (1) 如果随机映像对应于充分统计量,则距离度量不变 (2) 否则,距离度量减小 是否存在同时满足上述所有公理的距离度量? 存在且唯一! 里程碑: 1 Fisher (Early 1930) 2 Rao (1945) 3 Cencov (1982) Fisher-Rao度量 单参数定义 多参数定义 ? ? Fisher-Rao距离(信息距离) 局域定义: 全局定义: ? ? Cramer-Rao下界与Fisher-Rao度量的似然一致性 Fisher信息决定了参数无偏估计的方差下界 单参数情形 多参数情形 由参数估计的渐进正态性及渐进有效性,可直接说明Fisher-Rao度量对应于参数被“误估计”的可能性(似然一致性) ? ? 参数约简基本思路(Refined) 1 特征空间 --- 参数空间 2 利用参数的Fisher信息,定义参数的相对重要性 3 根据参数的相对重要性,在参数空间中实现维数约简、信息抽象和去噪 可信信息优先原则(Confident Information First)! 实例:n布尔变量分布 个布尔型随机变量 个布尔型随机变量的参数化中的任意项,这里表示,其余类似 如何对上述分布应用CIF原则? ? 实例:n布尔变量分布(续1) 技术困难:各个
您可能关注的文档
- 实验4 串口通信实验.ppt
- 实验中学历史教研组.ppt
- 实验四大肠杆菌感受态制备及外源DNA的转化.ppt
- 对2013年中考化学复习的几点思考2013.03.29.ppt
- 导体的电阻是导体本身的一种性质,由导体自身的因素决定,....ppt
- 导论(课程介绍).ppt
- 尊敬的各位校长:上午好!.ppt
- 小六甲 吴曦婷 潘梓玲 史颖生.ppt
- 小叙园林风格.ppt
- 小微企业企业所得税 优惠政策讲解.ppt
- 理解维新变法思想在近代中国社会发展进程中所起的作.ppt
- 瑞山中学高2015级“二诊”成绩分析秦露平.ppt
- 生态系统的组成描述生态系统中的食物链和食物网解释.ppt
- 生活是平淡的,却又是美好的。法国著名的雕塑家罗丹曾经....ppt
- 用“假设”的策略解决问题.ppt-教学目标.ppt
- 电子邮件软体的设定Outlook Express & NetScape发信软体网....ppt
- 白居易《长恨歌》七月七日长生殿,夜半无人私语时.ppt
- 皮江丽200908051131.ppt
- 眼睛是人们心灵的窗口,它是我们能看到美丽的景色,感受世....ppt
- 石家庄藁城市初中化学一班第四期班级简报 辅导教师 赵文革.ppt
最近下载
- 教案:ABB[a]-J-8ABB机器人高级编程.docx VIP
- 中国慢性冠脉综合征患者诊断及管理指南2024版解读.pptx
- 优秀工程项目管理经验分享.pptx VIP
- JGJT117-2019民用建筑修缮工程查勘与设计标准.docx VIP
- 2021年5月江苏省苏州工业园区初三调研(中考一模)英语试卷及答案.pdf VIP
- 【PDF】2022 年职业教育国家级教学成果奖申报.pdf VIP
- 电机基础知识入门 [(日)井出万盛 著] 2012年_部分10.pdf VIP
- 湘教版七年级地理上册第三章第二节气温和降水课件(共27张PPT)讲解.ppt VIP
- 科研项目中期检查报告书.docx VIP
- 丹江口水库现代化运行管理矩阵构建实践.docx VIP
文档评论(0)