混合模型lda.docxVIP

下载本文档

0
0
约4.55千字
约 20页
2018-02-12 发布于河南
举报
版权申诉

混合模型lda.docx

1、本文档共20页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

混合模型lda

由高斯聚类到LDA分析高斯聚类是一种基于概率密度的模型方法，即使用概率密度函数描述数据的生成，并试图优化实际数据与模型的拟合度。高斯聚类认为每个类都可以表示为概率的参数分布形式，多个不同的类别数据就可以建模成所有类分布的混合分布。这样在观察到多个混合分布的数据后，数据的聚类问题就转化为模型参数的估计问题。1、 GMM混合模型设观察到的数据由K个Gaussian分布混合生成，每个类的Gaussian分布生成该类别的数据，所有类别的高斯分布线性加成在一起就组成了GMM (Gaussian Mixture Model)的概率密度函数：(1)令是每种类别的概率,且。是满足参数为第k个类的高斯分布。根据上面的式子，数据的生成过程是这样完成的：首先根据概率随机地在这 K个类之中选一个，每个类被选中的概率实际上就是它的系数，选择类别之后，再从这个类别分布中生成数据点，执行完整过程就生成了观察得到的数据。1.1、极大似然估计由数据计算相关的模型参数，最基本的方法是极大似然估计法。假定随机变量X服从某一个参数为θ的分布，概率密度为 P(x;θ)，θ∈Θ，其中θ为带估计的参数，Θ是θ的可能取值范围。设，，…，是来自模型的样本，则观测数据，，…，的相应似然函数可以表示为： (2)它的值随θ取值变化而变化，最大似然估计法就是根据固定样本观察值，，…，，在θ可能的取值范围Θ内挑选使似然函数L(θ)达到最大的参数，作为参数θ的估计值。即：(3)最大似然估计参数的求解一般转换为求它对数的导数极值问题。即： (4)对于高斯混合分布，要求解的参数是K个分类中的参数，主要有：。1.2混合高斯分布的EM计算由GMM数据生成模型(1)描述方法，其似然函数可以表示为：取对数则可以得到：由于在对数函数里面有加和，直接用求导解方程的办法获得显示解比较困难。为了解决这个问题，可以采用其它参数估计的办法。这里由于聚类的个数K是固定的，所以比较多的是使用EM算法估计其中的参数。EM算法主要用于当有部分数据缺失或者无法观察到时，通过E步和M步迭代，并使算法逐渐收敛，达到稳定，从而计算出相关的参数值。每一次迭代分为两个步骤：期望（Expectation）步骤和最大化（Maximization）步骤。根据前面高斯混合分布数据生成的假设，则观察到是不完整的数据，这主要是没有获得中间选择数据由哪个类别生成。则全部数据Z是由可观测到的样本X={,……, }和不可观测到的类别样本Y={,，……,}组成的，其中Y表示的是选择数据产生的类别,，则完全数据Z=X∪Y。EM算法通过搜寻使全部数据的对数似然函数Log(L(Z;θ))的期望值最大来寻找参数的最优估计。算法流程描述如下：E步：假设每个类别的参数已经得到，先估计数据由每个类别生成的概率，则对于每个数据来说，它由第类生成的概率为：其中是后验概率。M步：现在可以通过极大似然估计得到每个类的参数值计算方法，即求得每个类的参数：（）重复迭代前面两步，直到似然函数的值收敛为止。2Gibbs估计高斯混合模型参数Gibbs采样是Markov Chain Monte Carlo(MCMC)方法应用于参数估计的一种实现。设数据由联合概率分布生成，如果能够使用现有的方法生成该联合概率的样本，则可以直接从样本中估计出所需要的参数，例如该联合概率满足高斯分布、多项式分布等情况，但是有些时候，这种直接由概率密度函数生成样本的方式却无法执行，但是联合概率密度函数所有参数的条件概率密度却容易获得满足条件的样本，这种情况下可以使用Gibbs采样的方式得到样本数据，而估计模型有关参数。Gibbs采样其步骤如下：1、每一个变量开始给定随机初始值。2、依据条件概率，对每个样本参数采样，即由这个变量相对于其他变量的条件概率分布进行取样，且后续变量的采样将使用已经采样的新变量值进行条件概率计算。3、如此重复2步，直到采样得到的数据样本值保持平稳，则停止采样。可以使用采样获得的样本近似估计联合分布的所有参数。2.1 有限混合高斯模型Gibbs采样参数估计该部分内容主要参考论文Infinite Gaussian Mixture Model(C.E. Rasmussen,NIPS 2000)，设有限元(FGMM)高斯模型描述为如下：数据y由K个不同模型生成，，，分别表示第j个类的先验概率，期望和方差。根据Bayes概率，每个类的参数满足一定的先验分布形式，即：满足多项式分布,它的先验分布为狄利克雷分布，满足高斯分布，满足伽玛分布，则它们的所有参数分布形式可以表示为如下图所示情况，参数总数为：为实现Gibbs采样计算，需要得到每个参数的条件概率表示形式，即，依据概率图模型Markovblanket条件只需要考虑估计参数的父节点、儿子节点和儿子节点的共同父节点参数，这样