- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
LDA浅析
(转)LDA浅析
前几个星期听创新院的同事分享了LDA(Latent Dirichlet Allocation)模型,便决定把它搞懂。LDA的数学模型还是比较好理解的,但LDA的计算过程涉及到一些比较复杂的统计估算技术,为了快速得到一个直观的理解,我先阅读了LDA的原始论文(/~blei/papers/BleiNgJordan2003.pdf),了解了它的数学模型,然后直接看LDA的实现(/~blei/lda-c/ 和/~daiti-m/dist/lda/)。Daichi Mochihashi的实现比较容易看懂一些,我用一些简单的例子,跟踪了算法执行的过程,总算有了一个直观的理解。一般人很容易被LDA复杂的数学公式吓到,而且论文为了严谨,一般都会把公式搞得比较繁琐,而直接从代码着手,大脑中建立一个LDA工作的直观模型,达到可以灵活应用的程度,我认为还是不难的。
LDA跟LSA、PLSA一样,是一种主题模型(topic model),可以无监督地对文档和词进行分类。相对于LSA和PLSA只能对训练集中的文档分类,LDA的好处在于能够预测非训练集中的文档和词的主题分布。与一般的机器学习分类算法不同,LDA的预测目标——主题分布,是训练集中不能直接观察到的量,是人(或模型)虚构出来的一个东东,因此称之为潜在的(Latent)。也正因为预测目标是模型自身虚构出来的一个隐变量,而不需要训练集提供这个量,所以LDA可以实现无监督的学习。我想,物理学中的“时间”这个概念是不是也是不可直接观察的,是人们为了模型简单而虚构出来的一个东西呢?
LDA是一种生成模型(generative model),也就是说,与直接根据观察到的文档来进行预测不同,LDA首先假设了产生文档的一个过程,然后根据观察到文档,来预测背后的产生过程是怎样的。LDA假设所有的文档存在K个主题(主题其实就是词的分布),要生成一篇文档,首先生成该文档的一个主题分布,然后再生成词的集合;要生成一个词,需要根据文档的主题分布随机选择一个主题,然后根据主题中词的分布随机选择一个词。
假设K维向量α是主题的先验分布的参数,K×V的矩阵β是主题中词的分布的参数(V为词的总数),即βij=p(wj|zi)=第i个主题中出现词wj的概率,那么生成一个文档的主题分布、再生成N个主题、进而得到这篇文档的N个词的概率可以表示为:
其中θ是文档的主题分布向量,z是N维的主题向量,w是N个词组成的向量。由于θ和z是训练数据中观察不到的潜在变量,求边缘分布将其从左边消掉:
对含有M篇文档的语料库D来说,p(D|α,β)=∏d=1…Mp(wd|α,β),所以
LDA的训练过程就是求使得p(D|α,β)最大的参数α和β的值。求得α和β,我们就可以对一篇文档的主题分布,以及每个词所属的主题进行预测,即求:
但是,这个分布不能直接计算,分母p(w|α,β)中的积分无法计算其解析表达式,因此需要采用统计估算技术。不管什么样的技术,只要能有效率地求出使得p(D|α,β)近似最大的参数α和β的值,以及使得p(θ,z|w,α,β)近似最大的θ和z的的值,都可以用来训练LDA模型和进行预测。在LDA的原始论文,采用variational inference算法来估算预测值,利用EM迭代算法来对参数α和β进行估计,Blei和Daichi Mochihashi的实现代码也是采用这样的方法,本文就不对定量的数学推导和估算做深入研究了,下面直接以Daichi Mochihashi的实现为例来讲一下训练和预测算法。
LDA训练算法:
(2)以下步骤迭代直到收敛:???(2.1)对训练集中的每篇文档:???????(2.1.1)利用当前的α和β值计算每篇文档的主题分布、每个词所属的主题分布(具体算法见下文);???(2.2)累积所有文档中,属于主题k(k=1…K)的词的个数,得到向量gammas;???????? 以及词i(i=1…V)属于主题k的次数,得到矩阵betas;???(2.3)根据当前的gammas,利用Newton-Raphson迭代方法求得当前的最优α值;???(2.4)对矩阵betas的列归一化,直接得到当前的β值,即每个主题的词的分布;(3)输出达到收敛时的α和β的值。
步骤(2.1.1)的算法与基于训练好的模型来进行预测的算法是相同的。它也是一个EM迭代算法,具体算法如下:
LDA预测算法:
(2)以下步骤迭代直到nt达到稳定:???(2.1)根据当前的α值(决定主题的先验分布),以及当前的nt值(当前文档的主题分布),??????? 以及当前的β值(主题的词的分布),计算文档中的各个词的主题分布,得到矩阵q,??????? qij=文档中的第i个词属于主题k的概率(具体计算方法参考L
您可能关注的文档
- Industry Equilibrium, Firm Dynamics, and Entry and Exit.pdf
- inference questions 学案.doc
- Infinite State Model Checking using Partial Evaluation and Abstract Interpretation.pdf
- Infinite State ModelChecking of Propositional Dynamic Logics.pdf
- INEWS以及MosGateway配置攻略.docx
- Influence of a momentum dependent interaction on the isospin dependence of fragmentation an.pdf
- Influence of Controlled Viscous Dissipation on the Propagation of Strongly Nonlinear Waves.pdf
- Influence of consumers.doc
- Influence of Cascaded Nonlinear Phase Shifts on SecondHarmonic Generation in HighIntensit.pdf
- Influence of Conversational Coherency of Email Communication in Successful Cooperative Soft.pdf
- LDPC码及其应用.pdf
- LD恒流源论文单模半导体激光泵浦源数字化驱动设计.doc
- LDPC码的改进译码算法.pdf
- LEAD++ An Object Oriented Language for Dynamically Adaptable Software Model.pdf
- Learning in DepthFirst Search A Unified Approach to Heuristic Search in Deterministic, Non.pdf
- Learning DepthFirst Search A Unified Approach to Heuristic Search in Deterministic and Non.pdf
- Lecture notes for “Analysis of Algorithms” Minimum cost flow and weighted bipartite match.pdf
- Led 灯的专业英语词汇.doc
- LED光源模型研究.pdf
- LED将是未来SSL技术的主宰.docx
最近下载
- 六年级语文上册生字表识字表《写字表》字帖人教版同步字帖描红2.pdf VIP
- 第8课 用制度体系保证人民当家作主 教案 -2023-2024学年中职高教版(2023)中国特色社会主义.docx VIP
- 高二数学(含创意快闪特效)-【开学第一课】2023年高中秋季开学指南之爱上数学课.pptx VIP
- 第8课 用制度体系保证人民当家作主中职专用【2023年秋最新版】.pptx VIP
- 2025年秋新北师大版数学2年级上册全册同步教学设计.pdf
- 某热电厂1×300MW供热机组工程安全预评价报告.doc VIP
- 四年级语文上册《写字表》字帖.pdf VIP
- 地埋管计算方法.doc VIP
- 太极拳理论教学课件.pptx VIP
- 八年级上册语文学习笔记.pptx VIP
文档评论(0)