基于GV―LDA微博话题检测研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于GV―LDA微博话题检测研究

基于GV―LDA微博话题检测研究   摘 要:随着社交网络的不断发展,微博成为越来越多的人获取信息的平台。为了有效解决微博话题检测中海量短文本带来的词稀疏问题,提出结合全局向量模型(GloVe)和潜在狄利克雷分布(LDA)的GV-LDA模型。在使用LDA进行话题检测前,模型利用多义词词项的含义与词性相关的事实,在标注过并去除低频词的语料上,对全局向量模型进行训练获得词向量,对词性相同且相似度大于阈值的词进行替换以解决稀疏性问题。实验结果表明, GV-LDA模型较传统的LDA主题模型,可有效提高话题检测的准确率和召回率,并降低“主题-词”处理的维度,因此GV-LDA更适合微博话题检测。   关键词:微博;话题检测;全局向量;潜在狄利克雷分布   DOIDOI:10.11907/rjdk.172432   中图分类号:TP319   文献标识码:A 文章编号:1672-7800(2018)002-0131-05   0 引言   随着信息技术的快速发展,社交网络信息量出现了爆炸式增长,人们可接触的信息越来越丰富,如何从海量信息中获取有效信息受到研究者越来越多的关注。   微博是一个基于用户关系的信息传播平台,可使用电脑或手机上的网页或应用,通过发布、评论、点赞、转发文字消息、照片或视频音频链接等方式,即时分享自己对事件的感受。微博作为一种新的网络媒体形式,已经成为普通民众分享、关注、获取所关心信息的重要平台。微博的字数限制在140字之内,更加契合忙碌运转的现代社会对写作和传播方式的需要,增加了人们创作的随意性。微博用户可以便捷地了解自己所关注的人和群组发布的消息,但无法及时掌握整个平台的热点话题。为此,需要将海量的微博信息进行组织和归并,从中提取话题,并以简洁而明确的形式予以展示。   利用微博的结构和内容信息,结合现有的话题检测技术,本文提出一套适合微博的话题检测方法,以更加有效地利用微博信息为用户提供更完善的信息服务。本文研究的主要问题包括共现窗口大小的确定、如何从词共现获得词向量、相似词归并中如何选定相似度阈值、如何通过文本得出话题等。   1 相关工作   Hofmann等[1]提出基于似然原理的生成模型PLSA(Probabilistic Latent Semantic Analysis,概率潜在语义分析),其基本思想是每个文档都是通过选择主题的分布,然后根据分布选择文档中的词语生成的。主题的数量有限,?τΦ臀?的语义空间,主题挖掘就是通过“降维”将文档从高维空间投影到语义空间。PLSA使用EM(Exception Maximization,最大期望算法)对模型进行求解,其计算复杂度小于SVD算法,因此PLSA在性能和扩展性等方面的表现优于LSA。但是PLSA在文档层面没有提供合适的概率模型,同时EM算法需要反复迭代,计算量依然很大。   Blei等[2]提出的LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)在PLSA中加入了Dirichlet先验分布。在这个模型中,文档建模为主题潜在集合上的有限混合,而主题则建模为主题概率潜在集合上的无限混合。针对PLSA中过多的参数导致过拟合及难以对训练集外的文档分配概率等缺陷,LDA引入了超参数,形成“文档-主题-词”的三层贝叶斯模型,使用变分贝叶斯近似后验分布推导参数来挖掘文本主题。   ThomasL.Grffiths等[3]在LDA模型的参数推导阶段引入马尔科夫链-蒙特卡洛算法(Gibbs抽样),并使用贝叶斯模型的选择来确定主题数量。其对参数的推导过程更加快速,同时解决了变分贝叶斯方法中参数局部最优的问题。   微博与传统文本在结构和内容上有差异,传统的话题检测方法不能很好地对其建模。为此,研究者纷纷提出新的模型,LDA模型在传统文本话题检测中表现卓越,多数模型基于LDA模型进行改进。   孙胜平[4]提出在空间向量模型中使用SPHA聚类算法用于微博话题检测。总体思想是:首先使用归一化TF-IDF函数计算特征权重,然后使用余弦法则计算文本的相似度,接着在话题初步检测中采用Single-Pass增量聚类算法,对与话题相似度高于阈值的文本进行归并,最后在话题合并环节采用自底向上的凝聚式层次聚类算法,不断合并相似度矩阵中相似度最大的两个文本,得到满足相似度预设值的话题类。   张晨逸等[5]综合考虑微博文本包含的社交网络结构化信息进行统一建模,提出MB-LDA微博生成模型。该模型基于如下假设:与同一个用户有关联的微博主题相关;转发的微博与原创微博主题相关。对以@开头的对话微博,模型抽样出@的联系人与各个主题的关系,并赋值给微博与主题之间的关系;对转发微博,模型从伯努利分布中抽取参数确定的多项式分布,抽样出当前单词所

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档