- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
七月教育LDA学员分享_version2
学员分享:LDA实践中的几个问题
squirrel_d@126.com
提 纲
• LDA中主题数量的确定方法
• LDA中超参数的意义
• LDA的假设及其在公式推导中的意义
• LDA中主题数量的确定方法
方法一.Likelihood
也即p(W|T),W是语料库中出现的所有词(不去重),T是设置
的主题数量
方法二.perplexity (困惑度)
计算公式:
一种常用的聚类质量评价标准;
随主题数量增多而单调减少,困惑度越低,模型越好;
计算的是测试集上所有单词出现概率的几何均值的倒数[1];
直观上来讲,困惑度描述的是在测试集上产生一个token所
需词表的期望大小,这个词表的单词符合均值分布[2]。
• LDA中主题数量的确定方法
Likelihood :已知theta和phi,怎么计算p(W|T)?
• LDA中主题数量的确定方法
Likelihood :怎么计算p(W|T)?
回到问题的出发点,根据log最大似然估计法,我们要计算:
(1)
根据LDA的图模型,我们可以得到[1]:
(2)
观察两个公式,对于公式(2)中, 暗含了其所在文
档dm的信息,因为生成m文档中词汇是在确定文档dm的文档
-主题概率 的前提下。也即,两个公式描述的是一回事。
• LDA中主题数量的确定方法
Likelihood:怎么计算p(W|T)
在LDA运行时需要设定T ,算出theta和phi后,我们用公式(1)
来求p(W|T)
红框内容与theta ,phi
值无关,可以略去
红框内容在LDA运行后都
已得到,因而这就是求训
练集likelihood的公式
• LDA中主题数量的确定方法
Likelihood :已知theta和phi,怎么计算p(W|T)?
示例:
(1) 收集50个文档
(2) 主题数设置为range(2,40,3) ,也即从5到40之间,每3个数
取一个值所形成的数列
(3) 对每个主题数,跑一次lda ,计算该主题数对应的似然值
• LDA中主题数量的确定方法
Perplexity方法
我找的LDA代码中这部分的实现有误。建议大家Debug下这
部分代码,加深LDA的理解
代码地址:/shuyo/iir/blob/master/lda/
Debug前perplexity随主题数量的变化情况
• LDA中主题数量的确定方法
Perplexity方法
Debug后perplexity随主题数量的变化情况
So,根据困惑度曲线选择主题数量时候,采用elbow方法
• LDA中超参数的意义(对称狄氏分布)
控制文档-主题多项分布的
超参数,alpha越小,文档
越集中于少数几个主题
控制文档-主题多项分布的
超参数,beta越小,主题越
集中于少数几个词汇
• LDA中超参数的意义(对称狄氏分布)
以α为例:
(1) 在设定主题数量和β不变的情况下, α分别取值
[0.2,0.3,0.5,1,1.5,2,5,10]
(2) 对于每个α,训练得到每个文档上的主题分布概率,
对于每个主题,计算所有文档在它上面的累积概率
• LDA的假设及其在公式推导中的意义
LDA的假设:
(1)给定主题的条件下,词汇和文档独立;
(2)同一主题下,词汇独立同分布;
(3)同一文档下,主题独立同分布。
提几个问题供大家思考:
(1)语料
您可能关注的文档
- MES产品化-中央空调场内物流培训.pptx
- MESUAT2系统基础设置测试.docx
- MES产品化功能操作介绍-条码及内控码导入V1.0.pptx
- MES产品化-中央空调配送卡管理 V1.0.pptx
- my alibaba操作指南.pdf.pdf
- Myouth团支部社区功能说明-简版0611.pdf
- MES标准时间应用系统信息功能介绍.pptx
- MES制造执行系统解决方案v1.1.pptx
- Nachi公司介绍.pdf
- MES解决方案2013.pdf.pdf
- 2023年12月人民日报社安徽分社招考聘用工作人员笔试近6年高频考题难、易错点荟萃答案带详解附后.docx
- 2023年12月先进技术成果西部转化中心(四川省)面向社会公开招考笔试近6年高频考题难、易错点荟萃答案带详解附后.docx
- 2023年12月国家海洋局第一海洋研究所科研助理公开招聘1人笔试近6年高频考题难、易错点荟萃答案带详解附后.docx
- 2023年12月安徽淮南经济技术开发区城市社区专职网格员招考聘用8人笔试近6年高频考题难、易错点荟萃答案带详解附后.docx
- 2023年12月云南昭通市教体系统招考聘用优秀紧缺教师406人笔试近6年高频考题难、易错点荟萃答案带详解附后.docx
- 2023年12月份吉林大学专职辅导员公开招聘15人笔试近6年高频考题难、易错点荟萃答案带详解附后.docx
- 2023年12月北京市第十二中学教师招考聘用笔试近6年高频考题难、易错点荟萃答案带详解附后.docx
- 2023年12月天津市第二耀华中学招考聘用高层次教育人才笔试近6年高频考题难、易错点荟萃答案带详解附后.docx
- 2023年12月安徽合肥市第八中学生活教师招考聘用笔试近6年高频考题难、易错点荟萃答案带详解附后.docx
- 2023年12月云南玉溪华宁县教育体育局提前招考聘用紧缺专业教师14人笔试近6年高频考题难、易错点荟萃答案带详解附后.docx
文档评论(0)