- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主题模型
Machine Learning 读书会第8期
主题模型简介
沈志勇
Data scientist @ IDL.Baidu
合办方:超级计算大脑研究部@ 自动化所
2013/12/8 rakecas@
outline
• What’s topic model
– 来龙去脉
– 相关模型的比较
• Learning topic model
– 来自模型的痛苦
– 来自数据的痛苦
• Using topic model
– 参数的使用
– 模型层面的利用:表达能力、学习机制等
2013/12/8 rakecas@
来龙去脉
LSA(I) 全称:Latent Sematic Analysis (Indexing)
优势:刻画近义词,计算word和doc的距离
(Deerwester,1990 )
概率化
全称:probabilistic Latent Semantic Analysis (Index)
pLSA(I) 优势:更好刻画一词多义,用多项式分布描述词频向量
(Hofmann,1999 )
贝叶斯化 (狭义)
LDA 全称:Latent Dirichlet Allocation
优势:贝叶斯化带来的各种好处(后面细说)
(Blei,2003 )
非参数化
全称: Hierarchical Dirichlet Process
HDP 优势:自动确定topic的个数
2013/12/8 (Teh,2005 ) rakecas@
什么是Topic Model?
是一种概
率图模型
是一种聚
类
描述了共 是一种降
现关系 维
是一种矩
是一种生
阵分解
成模型
2013/12/8 rakecas@
生成模型:汪老师写歌词
2013/12/8 rakecas@ (来自@于弦cos 微博图片)
生成模型:PLSA
Topic
z p( w|z)
您可能关注的文档
最近下载
- 第18章中国传媒业的新生态、新业态《网络与新媒体概论》教学课件.ppt VIP
- 三相桥式可控整流电路设计..doc
- 第17章互联网与网民素养《网络与新媒体概论》教学课件.ppt VIP
- 第14章互联网与精准营销《网络与新媒体概论》教学课件.ppt VIP
- 《典型灾害应急实训》课程大纲(本科).docx VIP
- 第12章互联网与社会思潮《网络与新媒体概论》教学课件.ppt VIP
- 护士N2晋级N3述职报告PPT.pptx
- 《人力资源规划HRP》课件.pptx VIP
- 第9章互联网与民主政治建设《网络与新媒体概论》教学课件.pptx VIP
- (新版)高级考评员职业技能鉴定考试题库(含答案).docx
文档评论(0)