LDA论文【DOC精选】.docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
LDA论文【DOC精选】

基于LDA模型的文档生成算法摘要本文包含两部分内容,一部分是我们对LDA模型的理解,LDA模型的核心是对参数的估计,而估计过程用到了EM,variational inference 等方法对进行逼近,最后收敛得出学习结果。另一部分是在此基础上所做的文档生成模型,这个生成模型的核心是对参数的采样,我们利用Dirichlet分布与Gamma分布的关系先产生k个相互独立的服从Gamma分布的随机数,再利用=得出服从Dirichlet分布的,最后利用函数对各个主题和单词进行采样,最终得出几篇文档,经分析,生成的文档具有一定的意义。1引言LDA模型(Latent Dirichlet Allocation)是文本建模的一种方法,属于概率生成模型。LDA模型是由David M.Blei 和 Michael I.Jordan等人在2003年提出的【1】。这个模型的提出是为了解决一些文档处理领域的问题,比如文章主题分类、文章检测、相似度分析、文本分段和文档检索等问题【2】。目前针对LDA扩展的研究工作非常多。其中有对参数的扩展,比如Blei等人在2004年和2006年又相继提出树结构的层级LDA和相关主题模型(CTM),使得模型更接近数据的真实情况。还有面向特定任务的LDA模型,涉及分类、作者主题模型、词义消歧、引用链接分析、人名消歧、情感分析等更细化的任务【2】。在LDA模型中,由于涉及到概率的生成,所以当对分布函数的参数进行估计的时候,就需要使用到EM算法。EM算法(Expectation-Maximization Algorithm)是由Dempster等人于1977年提出,是一种用于对具有隐变量的概率模型进行极大似然估计的算法。该算法在自然语言处理方面已经有广泛的运用,常见的诸如隐马尔科夫模型、高斯混合模型、k-均值算法、主成分分析等都可以用EM算法的思想来解释【2】。例如在LDA模型中,主题和单词的联合分布的似然函数的表达式无法写出来,但是可以用隐性变量表示出来,这时就可以使用EM算法来估计似然函数的参数。所谓隐性变量,说的是LDA的预测目标——主题分布,是训练集中不能直接观察到的量,是人(或模型)虚构出来的量,因此称之为潜在的(Latent)。目前,EM算法的发展和LDA模型紧密相连,比如Nallapati等人提出的并行变分EM算法,就用来对文档生成模型中的学习过程进行加速,以便应用于多处理器和分布式环境【2】。我们首先根据前人的成果对LDA模型和EM算法进行了详细研究,并且接触了一些关于用LDA模型实现文档生成的MATLAB程序。之后,我们尝试着以LDA模型为基础,以数学软件MATLAB为工具,先进行参数估计并生成一个有关主题和单词分布的矩阵,然后以这个矩阵作为学习后的结果进行采样,优化,进而生成一篇文档。2LDA模型的原理2.1 LDA学习过程在LDA学习过程中,有LDA Graphical model representation:Figure  LDA学习模型几乎所有讨论LDA的文章都包括上面的这幅图。它代表的概率模型:上式计算边缘概率,便可得:其中D代表一个语料库,M代表语料库中文档的总数。通过对LDA 生成模型的讨论我们理解到对文本的建模实际上就是要计算和 两个参数。和可以采用极大似然估计,但是这里遇到一个问题,就是似然函数由于和的耦合无法直接求出来:在这里,用到了variational inference方法, 为了估计后验分布,寻找一个似然函数的下界,这个下界正好可以被用来做为参数估计,因此借鉴Blei文中选择使用variational inference方法来计算似然函数的下界。这样,分别给定一个和的初始值,就可以计算出一个似然函数的值。 极大似然函数的参数估计,就是要找出一对 和,使得似然函数值最大。这时就用到了EM算法,EM有两个主要应用环境,第一个是观测到的数据不完整或其它原因导致数据丢失,第二个是似然函数无法直接计算但可以用隐含变量表示。LDA中的参数估计属于后者。每次 E-STEP输入和,计算似然函数,也就是variational inference的过程,M-STEP最大化这个函数,求出和。这样不断迭代知道收敛,就求得了最终的 和值。在本文中,我们利用Gibbs采样原理,对于后验估计这里假设了和相互独立。给定先验初始和,即可计算出,一个主题分布的率值,,对应主题下的单词的概率分布,和相应的,于是通过寻找一对和,使上式达到最大,再重新代入上式计算,依次不断类推最终达到收敛。此处运用到variational inference的知识,即确定和找到一组不断逼近所求似然函数值的函数,确定其中最大值,使之最为接近所求似然函数。利用KL距离,,简化计算。接下来的工作,就是要进行 EM迭代,直到和收敛。 E-STEP

文档评论(0)

taotao0b + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档