从信息瓶颈理论一瞥机器学习的大一统理论-BCMI.PDFVIP

从信息瓶颈理论一瞥机器学习的大一统理论-BCMI.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2019/1/5 PaperWeekly 从信息瓶颈理论一瞥机器学习的“大一统理论” Original哈啾路亚 PaperWeekly Yesterday 作者 丨哈啾路亚 单位 丨顺丰科技 研究方 向 丨NLP,神经 网络 个人主页 丨htt p // st-time.space 序言 所有机器学习的原理 ,本质上都是对同一段信息在不同空间内的转换、过滤、重新表征 ,最终解码 出一段可读信息。为了让最终信息可读 ,我们需要给最终输 出的每一个 bit 赋予意义。如果是监督 学习 ,则需要定义一个度量来描述输 出信息与真实信息的距离。 列举常见的传统机器学习 ,我们可以发现大多数监督学习都遵循着这一机制。 SV M 使用 内核机制重新定义了两个 向量的内积 ,经过 centering 这样一个定义原点的操作之后 , 可以很快看 出内核机制实际上重新定义了两个样本间的欧式距离。 而任意两点间的欧式距离被改变 ,则意味着坐标系的转换 ,并且转换过后的新坐标系基本上不再是 直角坐标系了 ,很可能是一个更高或是更低维度流型上的曲线坐标系。这时优化度量 margin loss 再在新坐标系上尝试分割出正负样本的 support vector 的最大间隔 ,找到线性超平面即可。 所有 回归 ,包括线性 回归、回归树 ,以及各种 boosting tree ,其坐标转换部分也非常明显 ,从 N 维输入到 1 维输 出的转换 (不管线性还是非线性 ),之后接一个优化度量 (KL 距离既交叉熵、 最小二乘、triplet loss ,etc.)。 /s/OiLLwD8EvUE7TAlp583Bcw 1/13 2019/1/5 PaperWeekly 贝叶斯流派的最终优化 目标 :logP(x) ,其本质还是减少 ,即增加预测分布与 目标分布的互 信息。其特征空间的转换的方法 ,就比较五花八 门了 ,这里不细分析。 那么 ,除了输入与输 出的表征方法 ,以及优化度量的选择之外 ,是否在各种机器学习包括深度学习 方法 内,通用的一些规则呢?就如 同牛顿三大定律一样 ,足以解释所有经典力学的公式。 从信息瓶颈方法 出发 ,接下来会尝试解释一系列深度学习中出现的知识 ,并稍作延伸与传统学习的 知识点进行类比 ,去探索机器学习的最核心思路。 何为信息 以一个二值编码的 10 维 向量为例 ,其排列组合个数 2^10 =1024 ,根据香农熵的定义 ,一个 10 维 binary 向量的最大可承载信息量是 log(1024) = 10 。 同样是 10 维 ,假如不是 binary ,而是任意连续变量 ,那么有两种方法可以用来估算连续变量的 熵 :分箱法以及基于 knn 的估算 ,后者本质上是一种不均匀的分箱法 ,所以就拿分箱法举例 ,假 如 同 样 是 0-1 区 间 被 分 成 20 个 区 间 , 那 么 该 10 维 向 量 的 最 大 可 承 载 信 息 量 就 是 。 一个分布 X ,如果满足 10 维随机均匀分布 ,那么其混乱度最大 ,能够达到最大可承载信息。实际 上无论是任何分布 ,只要 出现更粗粒度的离散化操作 ,其熵 H(X) 必然会不可逆地减少 ,出现信息 损失。 我们通常定义下的熵是微分熵 ,与

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档