- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
高斯混合模型培训
混合高斯模型一、GMM(Gaussian Mixture Model)简介想必大家都知道正态分布,这一分布反映了自然界普遍存在的有关变量的一种统计规律,例如身高,考试成绩等;而且有很好的数学性质,具有各阶导数,变量频数分布由完全决定等等,在许多领域得到广泛应用,是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若一维随机变量服从一个位置参数为、尺度参数为的概率分布,且其概率密度函数(PDF)为:则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作,读作服从,或服从正态分布。概率密度曲线如下图所示:多维高斯(正态)分布的概率密度函数定义如下:常记做:其中D为数据集变量的个数,为数据样本的协方差阵(covariance matrix)。在统计学与概率论中,协方差矩阵的每个元素是各个向量元素之间的协方差。期望值分别为与的两个实随机变量与之间的协方差定义为:如果与是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足。但是,反过来并不成立。即如果与的协方差为0,二者并不一定是统计独立的。我们来看一下iris数据集的协方差阵。GMM的核心思想就是任意的形态(不管是可见的光,图像,还是抽象的多维度变量模型,比如经济金融危机模型),都来可以用高斯函数来累积加权得到。每个 GMM 由个 Gaussian 分布组成,每个 Gaussian 称为一个Component,这些 Component 线性加成在一起就组成了 GMM 的概率密度函数:其中为Gaussian的个数,为第个高斯的权重,则为第个高斯的概率密度函数。在做参数估计的时候,常采用的方法是最大似然。最大似然法就是使样本点在估计的概率密度函数上的概率值最大。由于概率值一般都很小,N很大的时候这个连乘的结果非常小,容易造成浮点数下溢。所以我们通常取log,将目标改写成:也就是最大化log-likelyhood function。二、EM(Expectation Maximization)期望最大化算法一般用来做参数估计的时候,我们都是通过对待求变量进行求导来求极值,在上式中,log函数中又有求和,你想用求导的方法算的话方程组将会非常复杂,所以我们不好考虑用该方法求解(没有闭合解)。可以采用的求解方法是EM算法——将求解分为两步:第一步是假设我们知道各个高斯模型的参数(可以初始化一个,或者基于上一步迭代结果),去估计每个高斯模型的权值;第二步是基于估计的权值,回过头再去确定高斯模型的参数。重复这两个步骤,直到波动很小,近似达到极值(注意这里是个极值不是最值,EM算法会陷入局部最优)。具体步骤如下:算法初始化方案1:协方差矩阵设为单位矩阵,每个高斯的先验概率设为;均值设为随机数。方案2:由k均值(k-means)聚类算法对样本进行聚类,利用各类的均值作为,并计算,取各类样本占样本总数的比例。估计步骤(E-step)计算后验概率:最大化步骤(M-step)设样本容量为N,属于K个分类的样本数量分别是N1,N2,...,Nk。更新每个Gaussian参数:不断地迭代步骤和2)和3),重复更新上面三个值,直到的值收敛为止。三、k-meansK-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚集成不同的类。K-均值是一个迭代算法,假设我们想要将数据聚类成k个类,其方法为:1)首先选择k个随机的点,称为聚类中心(cluster centroids)2)对于数据集中的每一个数据,按照距离k个中心点的距离,将其与距离最近的中心点关联起来,与同一个中心点关联的所有点聚成一类3)计算每一个类里面数据的平均值,将该类所关联的中心点移到平均值的位置4)重复步骤 2-3直至中心点不再变化下图展示了对n个样本点进行K-means聚类的效果,这里k取2。用来表示聚类中心,用来存储第i个实例数据所属的类别。K-均值最小化问题,是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和,因此 K-均值的代价函数(又称畸变函数 Distortion function)为:其中代表与最近的聚类中心点。我们的的优化目标便是找出使得代价函数最小的和。四、GMM应用于模式识别五、GMM调用R语言中mclust包的Mclust函数实现了GMM算法,调用格式为:Mclust(data, G = NULL, modelNames = NULL, prior = NULL, control = emControl(), initialization = NULL, warn = mclust.options(warn), x = NULL, ...)参数说明:G: An integer vector specifying the numbers of
您可能关注的文档
最近下载
- AP化学 2012年真题 (选择题+问答题) AP Chemistry 2012 Released Exam and Answers (MCQ+FRQ).pdf VIP
- 第六章 教会法.ppt
- 城镇供水厂运行维护及安全技术规程-详版.pptx
- 无铬厚膜底漆、厚膜预涂板和制备方法.pdf VIP
- 教师道德与法治新课标考试试题三套及答案.docx
- CMA考试 P2试题500道含解析.pdf VIP
- 新型锂电池电解液添加剂技改扩能项目环境影响报告书.pdf
- 2025年广东省中山市华辰实验中学九年级中考数学一模试题(原卷版+解析版).docx VIP
- 历史逻辑 理论逻辑 实践逻辑的必然结果.docx VIP
- 2024年05月江苏无锡市梁溪区机关事业单位招考聘用编外工作人员20人笔试历年高频考点(难、易错点)附带答案详解.docx VIP
文档评论(0)