概率语言模型及其变形系列PLSA及EM算法.pdfVIP

下载本文档

24
0
约1.56万字
约 17页
2015-09-25 发布于重庆
举报
版权申诉

概率语言模型及其变形系列PLSA及EM算法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

概率语言模型及其变形系列PLSA及EM算法.pdf

BLOG.CSDN.NET/YANGLIUY 52NLP.CN 概率语言模型及其变形系列 PLSA 及EM 算法 yangliuyx@ 12/20/2012 本系列博文介绍常见概率语言模型及其变形模型，主要总结PLSA、LDA 及LDA 的变形模型及参数 Inference 方法. P a g e | 1 概率语言模型及其变形系列-PLSA 及 EM 算法 yangliuyx@ December 20th 2012 本系列博文介绍常见概率语言模型及其变形模型，主要总结PLSA、LDA 及LDA 的变形模型及参数Inference 方法。初步计划内容如下第一篇：PLSA 及EM 算法第二篇：LDA 及Gibbs Samping 第三篇：LDA 变形模型-Twitter LDA，TimeUserLDA ，ATM ，Labeled-LDA，MaxEnt-LDA 等第四篇：基于变形LDA 的paper 分类总结第一篇PLSA 及EM 算法前言：本文主要介绍PLSA 及EM 算法，首先给出LSA （隐性语义分析）的早期方法SVD，然后引入基于概率的PLSA 模型，其参数学习采用EM 算法。接着我们分析如何运用EM 算法估计一个简单的mixture unigram 语言模型和混合高斯模型GMM 的参数，最后总结EM 算法的一般形式及运用关键点。对于改进PLSA，引入hyperparameter 的LDA 模型及其Gibbs Sampling 参数估计方法放在本系列后面的文章LDA 及Gibbs Samping 介绍。 1 LSA and SVD LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept” 。我们知道，在文档的空间向量模型（VSM ）中，文档被表示成由特征词出现概率组成的多维向量，这种方法的好处是可以将query 和文档转化成同一空间下的向量计算相似度，可以对不同词项赋予不同的权重，在文本检索、分类、聚类问题中都得到了广泛应用，在newsgroup18828 文本分类器的JAVA 实现和newsgroup18828 文本聚类器的JAVA 实现系列文章中的分类聚类算法大多都是采用向量空间模型。然而，向量空间模型没有能力处理一词多义和一义多词问题，例如同义词也分别被表示成独立的一维，计算向量的余弦相似度时会低估用户期望的相似度；而某个词项有多个词义时，始终对应同一维度，因此计算的结果会高估用户期望的相似度。 LSA 方法的引入就可以减轻类似的问题。基于SVD 分解，我们可以构造一个原始向量矩阵的一个低秩逼近矩阵，具体的做法是将词项文档矩阵做SVD 分解其中是以词项(terms)为行, 文档(documents)为列做一个大矩阵. 设一共有t 行d 列, 矩阵的元素为词项的tf-idf 值。然后把的r 个对角元素的前k 个保留（最大的k 个保留）, 后面最小的r-k 个奇异值置0, 得到；最后计算一个近似的分解矩阵 P a g e |2 则在最小二乘意义下是的最佳逼近。由于最多包含 k 个非零元素，所以的秩不超过 k。通过在SVD 分解近似，我们将原始的向量转化成一个低维隐含语义空间中，起到了特征降维的作用。每个奇异值对应的是每个“语义”维度的权重，将不太重要的权重置为0，只保留最重要的维度信息，去掉一些信息“nosie”,因而可以得到文档的一种更优表示形式。将SVD 分解降维应用到文档聚类的JAVA 实现可参见此文。 2 PLSA 尽管基于SVD 的LSA 取得了一定的成功，但是其缺乏严谨的数理统计基础，而且SVD 分解非常耗时。Hofmann 在SIGIR99 上提出了基于概率统计的PLSA 模型，并且用EM 算法学习模型参数。 PLSA 的概率图模型如下其中