完整word版,高斯混合模型聚类.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高斯混合模型详解 聚类的方法有很多种, k-means 要数最简单的一种聚类方法了,其大致思想就是把数据分为多个堆, 每个堆就是一类。每个堆都有一个聚类中心(学习的结果就是获得这  k 个聚类中心),这个中心就是这个 类中所有数据的均值,而这个堆中所有的点到该类的聚类中心都小于到其他类的聚类中心(分类的过程就 是将未知数据对这  k 个聚类中心进行比较的过程,离谁近就是谁)。其实  k-means  算的上最直观、最方便 理解的一种聚类方式了,原则就是把最像的数据分在一起,而“像”这个定义由我们来完成,比如说欧式 距离的最小,等等。想对 k-means 的具体算法过程了解的话,请看这里。而在这篇博文里,我要介绍的是 另外一种比较流行的聚类方法 ----GMM (Gaussian Mixture Model )。 GMM和 k-means 其实是十分相似的, 区别仅仅在于对 GMM来说,我们引入了概率 。说到这里,我想先 补充一点东西。 统计学习的模型有两种,一种是概率模型,一种是非概率模型 。所谓概率模型,就是 指我 们要学习的模型的形式是 P(Y|X) ,这样在分类的过程中, 我们通过未知数据 X 可以获得 Y 取值的一个概率 分布,也就是训练后模型得到的输出不是一个具体的值,而是一系列值的概率(对应于分类问题来说,就 是对应于各个不同的类的概率),然后我们可以选取概率最大的那个类作为判决对象(算软分类 soft assignment )。而非概率模型 ,就是指我们学习的模型是一个决策函数 Y=f(X) ,输入数据 X 是多少就可以 投影得到唯一的一个 Y,就是判决结果(算硬分类 hard assignment )。回到 GMM,学习的过程就是训练出 几个概率分布,所谓 混合高斯模型 就是指对样本的概率密度分布进行估计,而估计的模型是几个高斯模型 加权之和(具体是几个要在模型训练前建立好)。每个高斯模型就代表了一个类(一个 Cluster )。对样 本中的数据分别在几个高斯模型上投影,就会分别得到在各个类上的概率。然后我们可以选取概率最大的 类所为判决结果。 得到概率有什么好处呢?我们知道人很聪明,就是在于我们会用各种不同的模型对观察到的事物和 现象做判决和分析。当你在路上发现一条狗的时候,你可能光看外形好像邻居家的狗,又更像一点点女朋 友家的狗,你很难判断,所以从外形上看,用软分类的方法,是女朋友家的狗概率 51%,是邻居家的狗的 概率是 49%,属于一个易混淆的区域内,这时你可以再用其它办法进行区分到底是谁家的狗。而如果是硬 分类的话,你所判断的就是女朋友家的狗,没有“多像”这个概念,所以不方便多模型的融合。 从中心极限定理的角度上看,把混合模型 假设为高斯 的是比较合理的,当然也可以根据实际数据定 义成任何分布的 Mixture Model, 不过定义为高斯的在计算上有一些方便之处,另外,理论上可以通过增加 Model 的个数,用 GMM近似任何概率分布。 混合高斯模型的定义为: 其中 K 为模型的个数, π k 为第 k 个高斯的权重 ,则为第 k 个高斯的概率密度函数,其均值为μ 方差为σ k。我们对此概率密度的估计就是要求π k、μ k 和σ k 各个变量。 当求出的表达式后,求和式的各 项的结果就分别代表样本 x 属于各个类的概率。  k, 在做参数估计的时候,常采用的方法是 最大似然 。最大似然法就是使样本点在估计的概率密度函 数上的概率值最大。 由于概率值一般都很小, N很大的时候这个联乘的结果非常小, 容易造成浮点数下溢。 所以我们通常取 log ,将目标改写成: 也就是最大化 log-likely hood function ,完整形式则为: 一般用来做参数估计的时候,我们都是通过对待求变量进行求导来求极值,在上式中, log 函数中 又有求和,你想用求导的方法算的话方程组将会非常复杂, 所以我们不好考虑用该方法求解 (没有闭合解) 。 可以采用的求解方法是 EM算法 ——将求解分为 两步:第一步是假设我们知道各个高斯模型的参数(可 以初始化一个,或者基于上一步迭代结果),去估计每个高斯模型的权值;第二步是基于估计的权值,回 过头再去确定高斯模型的参数。重复这两个步骤,直到波动很小,近似达到极值(注意这里是个极值不是 最值, EM算法会陷入局部最优)。 具体表达如下: 1 、对于第 i 个样本 xi 来说,它由第 k 个 model 生成的概率为: 在这一步,我们假设高斯模型的参数和是已知的(由上一步迭代而来或由初始值决定)。 ( E step ) M step ) 3 、重复上述两步骤直到算法收敛 (这个算法一定是收敛的, 至于具体的证明请回溯到 EM算法中

文档评论(0)

138****5510 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档