七月教育LDA学员分享_version2.pdf

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
七月教育LDA学员分享_version2

学员分享:LDA实践中的几个问题 squirrel_d@126.com 提 纲 • LDA中主题数量的确定方法 • LDA中超参数的意义 • LDA的假设及其在公式推导中的意义 • LDA中主题数量的确定方法 方法一.Likelihood 也即p(W|T),W是语料库中出现的所有词(不去重),T是设置 的主题数量 方法二.perplexity (困惑度) 计算公式: 一种常用的聚类质量评价标准; 随主题数量增多而单调减少,困惑度越低,模型越好; 计算的是测试集上所有单词出现概率的几何均值的倒数[1]; 直观上来讲,困惑度描述的是在测试集上产生一个token所 需词表的期望大小,这个词表的单词符合均值分布[2]。 • LDA中主题数量的确定方法 Likelihood :已知theta和phi,怎么计算p(W|T)? • LDA中主题数量的确定方法 Likelihood :怎么计算p(W|T)? 回到问题的出发点,根据log最大似然估计法,我们要计算: (1) 根据LDA的图模型,我们可以得到[1]: (2) 观察两个公式,对于公式(2)中, 暗含了其所在文 档dm的信息,因为生成m文档中词汇是在确定文档dm的文档 -主题概率 的前提下。也即,两个公式描述的是一回事。 • LDA中主题数量的确定方法 Likelihood:怎么计算p(W|T) 在LDA运行时需要设定T ,算出theta和phi后,我们用公式(1) 来求p(W|T) 红框内容与theta ,phi 值无关,可以略去 红框内容在LDA运行后都 已得到,因而这就是求训 练集likelihood的公式 • LDA中主题数量的确定方法 Likelihood :已知theta和phi,怎么计算p(W|T)? 示例: (1) 收集50个文档 (2) 主题数设置为range(2,40,3) ,也即从5到40之间,每3个数 取一个值所形成的数列 (3) 对每个主题数,跑一次lda ,计算该主题数对应的似然值 • LDA中主题数量的确定方法 Perplexity方法 我找的LDA代码中这部分的实现有误。建议大家Debug下这 部分代码,加深LDA的理解 代码地址:/shuyo/iir/blob/master/lda/ Debug前perplexity随主题数量的变化情况 • LDA中主题数量的确定方法 Perplexity方法 Debug后perplexity随主题数量的变化情况 So,根据困惑度曲线选择主题数量时候,采用elbow方法 • LDA中超参数的意义(对称狄氏分布) 控制文档-主题多项分布的 超参数,alpha越小,文档 越集中于少数几个主题 控制文档-主题多项分布的 超参数,beta越小,主题越 集中于少数几个词汇 • LDA中超参数的意义(对称狄氏分布) 以α为例: (1) 在设定主题数量和β不变的情况下, α分别取值 [0.2,0.3,0.5,1,1.5,2,5,10] (2) 对于每个α,训练得到每个文档上的主题分布概率, 对于每个主题,计算所有文档在它上面的累积概率 • LDA的假设及其在公式推导中的意义 LDA的假设: (1)给定主题的条件下,词汇和文档独立; (2)同一主题下,词汇独立同分布; (3)同一文档下,主题独立同分布。 提几个问题供大家思考: (1)语料

您可能关注的文档

文档评论(0)

jgx3536 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档