- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
融合协变量信息的结构主题模型
⽂本数据是⼀种重要的社会科学研究对象 在⽇常⽣活中,⼤家或多或少都接触过⽂本数据,⽐如,所阅读的书籍报
刊,应⽤软件发放的⽤户调查问卷,社交平台上的发⾔等 随着科技的迅猛发展,⽂本数据的可数字化使其存储和使⽤
更为便捷,⽂本分析和⽂本挖掘成为热门领域
在⽂本分析中,有⼀个重要的研究领域,即主题模型 最熟为⼈知的主题模型即LDA (Latent Dirichlet Allocation)主
题模型,本⽂所介绍的结构主题模型 (Structural Topic Model, STM)由2016年发表在Journal of the American
Statistical Association上的论⽂ 《A Model of Text for Experimentation in the Social Sciences》提出,是LDA主题模型
的⼀种拓展
主题模型⼀般是⼀种⽆监督学习⽅法,旨在通过观测到的⽂档 词语数据,挖掘其背后所隐含的主题情况,建⽴⽂档 主
题 词语的链接 本⽂的第⼀部分先介绍主题模型的⼀般思路;第⼆部分介绍结构主体模型 (STM)的⽣成原理;第三
部分介绍结构主题模型的估价⽅法——变分EM算法 (Variational EM algorithm);第四部分将结合实例,介绍如何在R
语⾔中使⽤结构主题模型进⾏估计;第五部分将进⾏总结,并给出模型的可应⽤场景
主题模型
在介绍STM模型前,先简单的叙述LDA模型的基本原理
潜在狄利克雷分配 (Latent Dirichlet Allocation, LDA)是⼀种基于贝叶斯学习的话题模型,于2002年由Blei等发表在
Journal of Machine Learning Research 3上的论⽂ 《Latent Dirichlet Allocation》中提出
1.符号说明
设共存在 个⽂档,使⽤ 作为索引 每个⽂档有 个词语,使⽤ 作为索引 观测到的词语即为 ,表⽰第 个⽂档中的第 个
词语,这就是⽂档 词语数据 所有观测的词语可以构成⼀个集合,使⽤ 作为索引
接下来,假设 个⽂档中,共存在 个主题,主题使⽤ 作为索引 设 为第 个⽂档在 个主题上的概率分布, 为第 个主题在
个词语上的概率分布,
2.贝塔分布与狄利克雷分布
贝塔分布是⼀组定义在 区间的连续概率分布,有两个参数 ,其概率密度函数为:
狄利克雷分布 (Dirichlet Distribution)是⼀种多元连续随机变量的概率分布,是贝塔分布的⼀种拓展,对于 元连续随机
变量, ,有⼀个 维参数 ,其概率密度函数为:
其中, , 称随机变量 服从参数为 的狄利克雷分布
通过观察可以发现,狄利克雷分布中,取参数 为2,即为贝塔分布
3.LDA主题模型的⽣成过程
LDA主题模型是⼀种贝叶斯概率模型,其⽂本集合⽣成过程如下,给定单词集合、⽂本集合、主题集合,以及参数 ,
:
(1)⽣成⽂档的主题分布:
对于给定的第 个⽂档,⾸先⽣成该⽂档的主题分布
(2)⽣成⽂档中的词语,对于该⽂档中的每⼀个词语
从参数为 的多项分布中,选择主题
给定主题 ,从多项分布的概率函数 中抽取对应的词语,其中, ,即每⼀个主题对应有⼀个词语的概率分布
在LDA模型中,需要去估计每⼀个⽂档对应的主题分布 (即 ),以及给定主题以后,该主题词语的多项分布概率
STM的模型原理1.STM的提出
在LDA模型中,⽂档的主题分布是从狄利克雷分布中选取出来的,不同的主题之间不存在相关性,但是实际中,不同的
主题之间是存在相关性的 另外,⼀些⽂档层级的协变量 (例如:作者等),可能对主题的选取、主题下词语的选取有
影响 STM模型可以有效地解决上述两个问题
STM模型由Roberts等发表在Journal of American Statistical Association,Applications and Case Studies上的论⽂ 《A
Model of Text for Experimentation in the Social Sciences》提出,其配套的R包由Roberts等发表在Journal of Statistical
Software上的论⽂ 《stm: R Package for Structural Topic Models》提供具体使⽤⽅法
2.STM的⽣成过程
STM的符号使⽤与上述LDA模型相同 在LDA模型中,有两个重要的多项分布概率分
您可能关注的文档
最近下载
- 液压传动与气动技术第二版习题册参考答案.docx VIP
- A.4 110kV主变二次回路原理图集(线路变压器组接线).pdf VIP
- 绞车斜巷提升能力计算及绞车选型核算方法.doc VIP
- 20K607:防排烟及暖通防火设计审查与安装.docx VIP
- 如何找回误删微信好友,微信好友一键恢复.doc VIP
- 2021 年贵州专升本考试《大学英语》真题试卷参考答案.pdf VIP
- l财主底儿女们蒋纯祖形象分析.doc VIP
- 输变电工程涉自然保护地全过程管理要求.pdf VIP
- 华夏银行信息科技管理委员会工作总结 (1).docx VIP
- DLT 1097-2023 火力发电厂凝汽器管板焊接技术规程.pdf VIP
原创力文档


文档评论(0)