七月教育LDA学员分享_version2.pdf

下载文档 降价啦

11
0
约2.26千字
约 13页
2018-05-08 发布于河南
举报
版权申诉
保障服务

七月教育LDA学员分享_version2.pdf

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

七月教育LDA学员分享_version2

学员分享：LDA实践中的几个问题 squirrel_d@126.com 提纲 • LDA中主题数量的确定方法 • LDA中超参数的意义 • LDA的假设及其在公式推导中的意义 • LDA中主题数量的确定方法方法一.Likelihood 也即p(W|T),W是语料库中出现的所有词(不去重),T是设置的主题数量方法二.perplexity （困惑度) 计算公式：一种常用的聚类质量评价标准; 随主题数量增多而单调减少，困惑度越低，模型越好; 计算的是测试集上所有单词出现概率的几何均值的倒数[1]; 直观上来讲，困惑度描述的是在测试集上产生一个token所需词表的期望大小，这个词表的单词符合均值分布[2]。 • LDA中主题数量的确定方法 Likelihood ：已知theta和phi,怎么计算p(W|T)？ • LDA中主题数量的确定方法 Likelihood ：怎么计算p(W|T)？回到问题的出发点,根据log最大似然估计法，我们要计算： (1) 根据LDA的图模型，我们可以得到[1]: (2) 观察两个公式，对于公式(2)中，暗含了其所在文档dm的信息，因为生成m文档中词汇是在确定文档dm的文档 -主题概率的前提下。也即，两个公式描述的是一回事。 • LDA中主题数量的确定方法 Likelihood:怎么计算p(W|T) 在LDA运行时需要设定T ，算出theta和phi后，我们用公式(1) 来求p(W|T) 红框内容与theta ，phi 值无关，可以略去红框内容在LDA运行后都已得到，因而这就是求训练集likelihood的公式 • LDA中主题数量的确定方法 Likelihood ：已知theta和phi,怎么计算p(W|T)？示例： (1) 收集50个文档 (2) 主题数设置为range(2,40,3) ，也即从5到40之间，每3个数取一个值所形成的数列 (3) 对每个主题数，跑一次lda ，计算该主题数对应的似然值 • LDA中主题数量的确定方法 Perplexity方法我找的LDA代码中这部分的实现有误。建议大家Debug下这部分代码，加深LDA的理解代码地址：/shuyo/iir/blob/master/lda/ Debug前perplexity随主题数量的变化情况 • LDA中主题数量的确定方法 Perplexity方法 Debug后perplexity随主题数量的变化情况 So,根据困惑度曲线选择主题数量时候，采用elbow方法 • LDA中超参数的意义(对称狄氏分布) 控制文档-主题多项分布的超参数，alpha越小，文档越集中于少数几个主题控制文档-主题多项分布的超参数，beta越小，主题越集中于少数几个词汇 • LDA中超参数的意义(对称狄氏分布) 以α为例: (1) 在设定主题数量和β不变的情况下， α分别取值 [0.2,0.3,0.5,1,1.5,2,5,10] (2) 对于每个α,训练得到每个文档上的主题分布概率，对于每个主题，计算所有文档在它上面的累积概率 • LDA的假设及其在公式推导中的意义 LDA的假设： (1)给定主题的条件下，词汇和文档独立； (2)同一主题下，词汇独立同分布； (3)同一文档下，主题独立同分布。提几个问题供大家思考： (1)语料