- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主题模型概述
THOMAS HOFMANN
th@cs.brown.edu
Department of Computer Science, Brown University, Providence, USA
Unsupervised Learning by Probabilistic LatentSemantic Analysis
Content
Latent semantic analysis(LSA)
SVD
Probabilistic latent semantic analysis(PLSA)
Expect Maximum(EM)
LDA(Latent Dirichlet Analysis)
各种变种及应用(扩展部分)
LSA
主要用于文本分析
思想:找低阶的矩阵对terms-doc矩阵进行分解,得到doc的潜在语义
可以处理多义词和同义词的问题
求解方式:SVD(奇异值分解)
SVD奇异值分解
词项文档矩阵做SVD分解
求解方法:
迭代法、并行方法、求NN’的特征值法
PLSA
Generate model
其中:
P(di):表示生成这篇文章的先验概率
P(zk|di):表示在di这篇文章中选择主题zk的概率
P(wj|zk):表示在Zk主题下选择单词wj的概率
最大似然函数
EM(期望最大化算法)
EM算法的步骤是:
(1)E步骤:求隐含变量Given当前估计的参数条件下的后验概率。
(2)M步骤:最大化Complete data对数似然函数的期望,此时我们使用E步骤里计算的隐含变量的后验概率,得到新的参数值。
两步迭代进行直到收敛。
解决方法(MLE)
拉格朗日乘子法
求解方程组得到
LDA
涉及到的数学知识
概率
条件概率、贝叶斯、Gamma\Beta\Dirichlet分布、共轭分布、随机过程之马尔科夫链
随机抽样:MCMC、GibbsSamples
您可能关注的文档
- 主题班会—强身健体-预防疾病ppt幻灯片.pptx
- 主题五---战后世界格局的演变ppt幻灯片.ppt
- 主题一旅游资源ppt幻灯片.ppt
- 主谓一致的三个原则ppt幻灯片.ppt
- 主语从句ppt幻灯片.ppt
- 主语-谓语-宾语等ppt幻灯片.ppt
- 煮酒论英雄ppt幻灯片.ppt
- 助产士咨询门诊ppt幻灯片.pptx
- 2024年全国保密知识竞赛经典试题库及参考答案(完整版).docx
- 智能分析之深度学习和整体解决方案.doc
- 2024年一级注册建筑师证考试题库附答案(达标题).docx
- 2024年国家一级注册建筑师重点题库参考答案.docx
- 2024一级注册建筑师靶向题库一套.docx
- 2024年国家一级注册建筑师重点题库及答案一套.docx
- 2024年保密知识教育培训考试参考答案.docx
- 2024年(茅台酒)白酒酿造工职业技能认定-制曲制酒重点题库含解析答案.docx
- 2024年(茅台酒)白酒酿造工职业技能认定-制曲制酒重点题库a4版.docx
- 2024年(茅台酒)白酒酿造工职业技能认定-制曲制酒必考题库带答案(研优卷).docx
- 2024年度(茅台酒)白酒酿造工职业技能认定-制曲制酒资格考试及答案(新).docx
- 2024年(茅台酒)白酒酿造工职业技能认定-制曲制酒从业资格证题库及参考答案一套.docx
文档评论(0)