高斯混合模型培训.docx

下载文档

3
0
约2.11千字
约 5页
2018-05-25 发布于浙江
举报
版权申诉
保障服务

高斯混合模型培训.docx

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

高斯混合模型培训

混合高斯模型一、GMM（Gaussian Mixture Model）简介想必大家都知道正态分布，这一分布反映了自然界普遍存在的有关变量的一种统计规律，例如身高，考试成绩等；而且有很好的数学性质，具有各阶导数，变量频数分布由完全决定等等，在许多领域得到广泛应用，是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。若一维随机变量服从一个位置参数为、尺度参数为的概率分布，且其概率密度函数（PDF）为：则这个随机变量就称为正态随机变量，正态随机变量服从的分布就称为正态分布，记作，读作服从，或服从正态分布。概率密度曲线如下图所示：多维高斯（正态）分布的概率密度函数定义如下：常记做：其中D为数据集变量的个数，为数据样本的协方差阵（covariance matrix）。在统计学与概率论中，协方差矩阵的每个元素是各个向量元素之间的协方差。期望值分别为与的两个实随机变量与之间的协方差定义为：如果与是统计独立的，那么二者之间的协方差就是0，因为两个独立的随机变量满足。但是，反过来并不成立。即如果与的协方差为0，二者并不一定是统计独立的。我们来看一下iris数据集的协方差阵。GMM的核心思想就是任意的形态（不管是可见的光，图像，还是抽象的多维度变量模型，比如经济金融危机模型），都来可以用高斯函数来累积加权得到。每个 GMM 由个 Gaussian 分布组成，每个 Gaussian 称为一个Component，这些 Component 线性加成在一起就组成了 GMM 的概率密度函数：其中为Gaussian的个数，为第个高斯的权重，则为第个高斯的概率密度函数。在做参数估计的时候，常采用的方法是最大似然。最大似然法就是使样本点在估计的概率密度函数上的概率值最大。由于概率值一般都很小，N很大的时候这个连乘的结果非常小，容易造成浮点数下溢。所以我们通常取log，将目标改写成：也就是最大化log-likelyhood function。二、EM（Expectation Maximization）期望最大化算法一般用来做参数估计的时候，我们都是通过对待求变量进行求导来求极值，在上式中，log函数中又有求和，你想用求导的方法算的话方程组将会非常复杂，所以我们不好考虑用该方法求解（没有闭合解）。可以采用的求解方法是EM算法——将求解分为两步：第一步是假设我们知道各个高斯模型的参数（可以初始化一个，或者基于上一步迭代结果），去估计每个高斯模型的权值；第二步是基于估计的权值，回过头再去确定高斯模型的参数。重复这两个步骤，直到波动很小，近似达到极值（注意这里是个极值不是最值，EM算法会陷入局部最优）。具体步骤如下：算法初始化方案1：协方差矩阵设为单位矩阵，每个高斯的先验概率设为；均值设为随机数。方案2：由k均值（k-means）聚类算法对样本进行聚类，利用各类的均值作为，并计算，取各类样本占样本总数的比例。估计步骤（E-step）计算后验概率：最大化步骤（M-step）设样本容量为N，属于K个分类的样本数量分别是N1,N2,...,Nk。更新每个Gaussian参数：不断地迭代步骤和2）和3），重复更新上面三个值，直到的值收敛为止。三、k-meansK-均值是最普及的聚类算法，算法接受一个未标记的数据集，然后将数据聚集成不同的类。K-均值是一个迭代算法，假设我们想要将数据聚类成k个类，其方法为:1）首先选择k个随机的点，称为聚类中心（cluster centroids）2）对于数据集中的每一个数据，按照距离k个中心点的距离，将其与距离最近的中心点关联起来，与同一个中心点关联的所有点聚成一类3）计算每一个类里面数据的平均值，将该类所关联的中心点移到平均值的位置4）重复步骤 2-3直至中心点不再变化下图展示了对n个样本点进行K-means聚类的效果，这里k取2。用来表示聚类中心，用来存储第i个实例数据所属的类别。K-均值最小化问题，是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和，因此 K-均值的代价函数（又称畸变函数 Distortion function）为：其中代表与最近的聚类中心点。我们的的优化目标便是找出使得代价函数最小的和。四、GMM应用于模式识别五、GMM调用R语言中mclust包的Mclust函数实现了GMM算法，调用格式为：Mclust(data, G = NULL, modelNames = NULL, prior = NULL, control = emControl(), initialization = NULL, warn = mclust.options(warn), x = NULL, ...)参数说明：G: An integer vector specifying the numbers of