融合协变量信息的结构主题模型.pdfVIP

下载本文档

1
0
约7.83千字
约 8页
2023-07-18 发布于湖北
举报
版权申诉

融合协变量信息的结构主题模型.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

融合协变量信息的结构主题模型⽂本数据是⼀种重要的社会科学研究对象在⽇常⽣活中，⼤家或多或少都接触过⽂本数据，⽐如，所阅读的书籍报刊，应⽤软件发放的⽤户调查问卷，社交平台上的发⾔等随着科技的迅猛发展，⽂本数据的可数字化使其存储和使⽤更为便捷，⽂本分析和⽂本挖掘成为热门领域在⽂本分析中，有⼀个重要的研究领域，即主题模型最熟为⼈知的主题模型即LDA （Latent Dirichlet Allocation）主题模型，本⽂所介绍的结构主题模型（Structural Topic Model, STM）由2016年发表在Journal of the American Statistical Association上的论⽂《A Model of Text for Experimentation in the Social Sciences》提出，是LDA主题模型的⼀种拓展主题模型⼀般是⼀种⽆监督学习⽅法，旨在通过观测到的⽂档词语数据，挖掘其背后所隐含的主题情况，建⽴⽂档主题词语的链接本⽂的第⼀部分先介绍主题模型的⼀般思路；第⼆部分介绍结构主体模型（STM）的⽣成原理；第三部分介绍结构主题模型的估价⽅法——变分EM算法（Variational EM algorithm）；第四部分将结合实例，介绍如何在R 语⾔中使⽤结构主题模型进⾏估计；第五部分将进⾏总结，并给出模型的可应⽤场景主题模型在介绍STM模型前，先简单的叙述LDA模型的基本原理潜在狄利克雷分配（Latent Dirichlet Allocation, LDA）是⼀种基于贝叶斯学习的话题模型，于2002年由Blei等发表在 Journal of Machine Learning Research 3上的论⽂《Latent Dirichlet Allocation》中提出 1.符号说明设共存在个⽂档，使⽤作为索引每个⽂档有个词语，使⽤作为索引观测到的词语即为，表⽰第个⽂档中的第个词语，这就是⽂档词语数据所有观测的词语可以构成⼀个集合，使⽤作为索引接下来，假设个⽂档中，共存在个主题，主题使⽤作为索引设为第个⽂档在个主题上的概率分布，为第个主题在个词语上的概率分布， 2.贝塔分布与狄利克雷分布贝塔分布是⼀组定义在区间的连续概率分布，有两个参数，其概率密度函数为：狄利克雷分布（Dirichlet Distribution）是⼀种多元连续随机变量的概率分布，是贝塔分布的⼀种拓展，对于元连续随机变量，，有⼀个维参数，其概率密度函数为：其中，，称随机变量服从参数为的狄利克雷分布通过观察可以发现，狄利克雷分布中，取参数为2，即为贝塔分布 3.LDA主题模型的⽣成过程 LDA主题模型是⼀种贝叶斯概率模型，其⽂本集合⽣成过程如下，给定单词集合、⽂本集合、主题集合，以及参数，：（1）⽣成⽂档的主题分布：对于给定的第个⽂档，⾸先⽣成该⽂档的主题分布（2）⽣成⽂档中的词语，对于该⽂档中的每⼀个词语从参数为的多项分布中，选择主题给定主题，从多项分布的概率函数中抽取对应的词语，其中，，即每⼀个主题对应有⼀个词语的概率分布在LDA模型中，需要去估计每⼀个⽂档对应的主题分布（即），以及给定主题以后，该主题词语的多项分布概率 STM的模型原理1.STM的提出在LDA模型中，⽂档的主题分布是从狄利克雷分布中选取出来的，不同的主题之间不存在相关性，但是实际中，不同的主题之间是存在相关性的另外，⼀些⽂档层级的协变量（例如：作者等），可能对主题的选取、主题下词语的选取有影响 STM模型可以有效地解决上述两个问题 STM模型由Roberts等发表在Journal of American Statistical Association，Applications and Case Studies上的论⽂《A Model of Text for Experimentation in the Social Sciences》提出，其配套的R包由Roberts等发表在Journal of Statistical Software上的论⽂《stm: R Package for Structural Topic Models》提供具体使⽤⽅法 2.STM的⽣成过程 STM的符号使⽤与上述LDA模型相同在LDA模型中，有两个重要的多项分布概率分