融合协变量信息的结构主题模型.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
融合协变量信息的结构主题模型 ⽂本数据是⼀种重要的社会科学研究对象 在⽇常⽣活中,⼤家或多或少都接触过⽂本数据,⽐如,所阅读的书籍报 刊,应⽤软件发放的⽤户调查问卷,社交平台上的发⾔等 随着科技的迅猛发展,⽂本数据的可数字化使其存储和使⽤ 更为便捷,⽂本分析和⽂本挖掘成为热门领域 在⽂本分析中,有⼀个重要的研究领域,即主题模型 最熟为⼈知的主题模型即LDA (Latent Dirichlet Allocation)主 题模型,本⽂所介绍的结构主题模型 (Structural Topic Model, STM)由2016年发表在Journal of the American Statistical Association上的论⽂ 《A Model of Text for Experimentation in the Social Sciences》提出,是LDA主题模型 的⼀种拓展 主题模型⼀般是⼀种⽆监督学习⽅法,旨在通过观测到的⽂档 词语数据,挖掘其背后所隐含的主题情况,建⽴⽂档 主 题 词语的链接 本⽂的第⼀部分先介绍主题模型的⼀般思路;第⼆部分介绍结构主体模型 (STM)的⽣成原理;第三 部分介绍结构主题模型的估价⽅法——变分EM算法 (Variational EM algorithm);第四部分将结合实例,介绍如何在R 语⾔中使⽤结构主题模型进⾏估计;第五部分将进⾏总结,并给出模型的可应⽤场景 主题模型 在介绍STM模型前,先简单的叙述LDA模型的基本原理 潜在狄利克雷分配 (Latent Dirichlet Allocation, LDA)是⼀种基于贝叶斯学习的话题模型,于2002年由Blei等发表在 Journal of Machine Learning Research 3上的论⽂ 《Latent Dirichlet Allocation》中提出 1.符号说明 设共存在 个⽂档,使⽤ 作为索引 每个⽂档有 个词语,使⽤ 作为索引 观测到的词语即为 ,表⽰第 个⽂档中的第 个 词语,这就是⽂档 词语数据 所有观测的词语可以构成⼀个集合,使⽤ 作为索引 接下来,假设 个⽂档中,共存在 个主题,主题使⽤ 作为索引 设 为第 个⽂档在 个主题上的概率分布, 为第 个主题在 个词语上的概率分布, 2.贝塔分布与狄利克雷分布 贝塔分布是⼀组定义在 区间的连续概率分布,有两个参数 ,其概率密度函数为: 狄利克雷分布 (Dirichlet Distribution)是⼀种多元连续随机变量的概率分布,是贝塔分布的⼀种拓展,对于 元连续随机 变量, ,有⼀个 维参数 ,其概率密度函数为: 其中, , 称随机变量 服从参数为 的狄利克雷分布 通过观察可以发现,狄利克雷分布中,取参数 为2,即为贝塔分布 3.LDA主题模型的⽣成过程 LDA主题模型是⼀种贝叶斯概率模型,其⽂本集合⽣成过程如下,给定单词集合、⽂本集合、主题集合,以及参数 ,   : (1)⽣成⽂档的主题分布: 对于给定的第 个⽂档,⾸先⽣成该⽂档的主题分布 (2)⽣成⽂档中的词语,对于该⽂档中的每⼀个词语 从参数为 的多项分布中,选择主题 给定主题 ,从多项分布的概率函数 中抽取对应的词语,其中, ,即每⼀个主题对应有⼀个词语的概率分布 在LDA模型中,需要去估计每⼀个⽂档对应的主题分布 (即 ),以及给定主题以后,该主题词语的多项分布概率 STM的模型原理1.STM的提出 在LDA模型中,⽂档的主题分布是从狄利克雷分布中选取出来的,不同的主题之间不存在相关性,但是实际中,不同的 主题之间是存在相关性的 另外,⼀些⽂档层级的协变量 (例如:作者等),可能对主题的选取、主题下词语的选取有 影响 STM模型可以有效地解决上述两个问题 STM模型由Roberts等发表在Journal of American Statistical Association,Applications and Case Studies上的论⽂ 《A Model of Text for Experimentation in the Social Sciences》提出,其配套的R包由Roberts等发表在Journal of Statistical Software上的论⽂ 《stm: R Package for Structural Topic Models》提供具体使⽤⽅法 2.STM的⽣成过程 STM的符号使⽤与上述LDA模型相同 在LDA模型中,有两个重要的多项分布概率分

文档评论(0)

南江月 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档