- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
高斯混合模型详解
聚类的方法有很多种, k-means 要数最简单的一种聚类方法了,其大致思想就是把数据分为多个堆,
每个堆就是一类。每个堆都有一个聚类中心(学习的结果就是获得这
k 个聚类中心),这个中心就是这个
类中所有数据的均值,而这个堆中所有的点到该类的聚类中心都小于到其他类的聚类中心(分类的过程就
是将未知数据对这
k 个聚类中心进行比较的过程,离谁近就是谁)。其实
k-means
算的上最直观、最方便
理解的一种聚类方式了,原则就是把最像的数据分在一起,而“像”这个定义由我们来完成,比如说欧式
距离的最小,等等。想对 k-means 的具体算法过程了解的话,请看这里。而在这篇博文里,我要介绍的是
另外一种比较流行的聚类方法 ----GMM (Gaussian Mixture Model )。
GMM和 k-means 其实是十分相似的, 区别仅仅在于对 GMM来说,我们引入了概率
。说到这里,我想先
补充一点东西。 统计学习的模型有两种,一种是概率模型,一种是非概率模型
。所谓概率模型,就是 指我
们要学习的模型的形式是
P(Y|X) ,这样在分类的过程中, 我们通过未知数据
X 可以获得 Y 取值的一个概率
分布,也就是训练后模型得到的输出不是一个具体的值,而是一系列值的概率(对应于分类问题来说,就
是对应于各个不同的类的概率),然后我们可以选取概率最大的那个类作为判决对象(算软分类
soft
assignment )。而非概率模型 ,就是指我们学习的模型是一个决策函数
Y=f(X) ,输入数据 X 是多少就可以
投影得到唯一的一个
Y,就是判决结果(算硬分类
hard assignment )。回到 GMM,学习的过程就是训练出
几个概率分布,所谓
混合高斯模型 就是指对样本的概率密度分布进行估计,而估计的模型是几个高斯模型
加权之和(具体是几个要在模型训练前建立好)。每个高斯模型就代表了一个类(一个
Cluster
)。对样
本中的数据分别在几个高斯模型上投影,就会分别得到在各个类上的概率。然后我们可以选取概率最大的
类所为判决结果。
得到概率有什么好处呢?我们知道人很聪明,就是在于我们会用各种不同的模型对观察到的事物和
现象做判决和分析。当你在路上发现一条狗的时候,你可能光看外形好像邻居家的狗,又更像一点点女朋
友家的狗,你很难判断,所以从外形上看,用软分类的方法,是女朋友家的狗概率
51%,是邻居家的狗的
概率是 49%,属于一个易混淆的区域内,这时你可以再用其它办法进行区分到底是谁家的狗。而如果是硬
分类的话,你所判断的就是女朋友家的狗,没有“多像”这个概念,所以不方便多模型的融合。
从中心极限定理的角度上看,把混合模型
假设为高斯 的是比较合理的,当然也可以根据实际数据定
义成任何分布的 Mixture Model, 不过定义为高斯的在计算上有一些方便之处,另外,理论上可以通过增加 Model 的个数,用 GMM近似任何概率分布。
混合高斯模型的定义为:
其中 K 为模型的个数, π k 为第 k 个高斯的权重 ,则为第 k 个高斯的概率密度函数,其均值为μ
方差为σ k。我们对此概率密度的估计就是要求π k、μ k 和σ k 各个变量。 当求出的表达式后,求和式的各
项的结果就分别代表样本 x 属于各个类的概率。
k,
在做参数估计的时候,常采用的方法是 最大似然 。最大似然法就是使样本点在估计的概率密度函
数上的概率值最大。 由于概率值一般都很小, N很大的时候这个联乘的结果非常小, 容易造成浮点数下溢。
所以我们通常取 log ,将目标改写成:
也就是最大化 log-likely hood function ,完整形式则为:
一般用来做参数估计的时候,我们都是通过对待求变量进行求导来求极值,在上式中, log 函数中
又有求和,你想用求导的方法算的话方程组将会非常复杂, 所以我们不好考虑用该方法求解 (没有闭合解) 。
可以采用的求解方法是 EM算法 ——将求解分为 两步:第一步是假设我们知道各个高斯模型的参数(可
以初始化一个,或者基于上一步迭代结果),去估计每个高斯模型的权值;第二步是基于估计的权值,回
过头再去确定高斯模型的参数。重复这两个步骤,直到波动很小,近似达到极值(注意这里是个极值不是
最值, EM算法会陷入局部最优)。 具体表达如下:
1 、对于第 i 个样本 xi 来说,它由第 k 个 model 生成的概率为:
在这一步,我们假设高斯模型的参数和是已知的(由上一步迭代而来或由初始值决定)。
( E step )
M step )
3 、重复上述两步骤直到算法收敛 (这个算法一定是收敛的, 至于具体的证明请回溯到 EM算法中
您可能关注的文档
最近下载
- 《七巧板》完整版教学课件.pptx VIP
- 定时交通灯控制设计.pdf VIP
- 浙大中控DCS系统操作规程.doc VIP
- 学校家长安全责任书.docx VIP
- 北师大版小学数学六年级上册第二单元 分数混合运算 基础测试题.doc VIP
- 2025至2030中国食用油行业运营态势与投资前景调查研究报告.docx VIP
- 10.3 合同的变更、转让、解除和终止(政策与法律法规 第7版).pptx VIP
- 儿童肺炎支原体肺炎诊疗指南2025年版解读PPT课件.pptx VIP
- 深圳初一数学下学期期中模拟测试题(带答案).pdf VIP
- 2023年春国开(甘肃)《个人理财》形考任务1-4题库.docx
文档评论(0)