基于LDA模型和微博热度的热点挖掘-图书情报工作.PDF

基于LDA模型和微博热度的热点挖掘-图书情报工作.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第58卷 第5期 2014年3月 基于LDA模型和微博热度的热点挖掘 ■ 唐晓波 向坤 [摘 要]分析传统LDA模型在进行微博热点挖掘时所得概率结果抽象且难以结合实际解释的缺点;考虑 到微博本身的数据特点和信息论中信息量的观点,提出微博热度的概念,并将其引入到LDA模型的热点挖掘 研究中,构建基于微博热度的LDA模型;通过API采集微博数据上的实验,证明新方法与旧方法具有相同的性 能,而且能得到更直观的微博热度表,并得出更具有说服力的挖掘结论。 [关键词]LDA 微博热度 主题模型 热点挖掘 [分类号]G203   DOI:10.13266/j.issn.0252-3116.2014.05.010 1 引 言   由于微博信息构成的文本矩阵的稀疏性和高维性, 本文使用基于潜在语义分析的文本挖掘方法来进行微   随着Web2.0的互联网产品模式的迅速发展,微博 博主题的挖掘,主要使用LDA模型———一种基于潜在 这一新时代的互联网社交网络工具也越来越深入到人 狄利克雷分布的主题生成模型。在这个主题模型中,一 们的生活之中。中国的微博从2007年发展至今,已经拥 系列主题以服从多项式分布的形式生成每个文本,再从 有上亿用户群。不仅是个人,越来越多的机构,包括政 这些主题中同样以服从多项式分布的方式抽样出每个 府部门、企业单位、社会群体等都建立了自己的官方微 单词,由此构成该模型围绕主题生成文本的过程。 博,以此来发表自己的观点和最新动态等信息。新浪微 [1]   在传统的LDA主题模型 中,分析计算的基数是词 博自2009年8月推出以来,截至2012年12月底,其注 频。词频可以被看作是微博的一项元数据特征,而微博 册用户已超过5亿人,日活跃用户达到4620万人,用户 [2] 具有多项元数据 ,在微博这个社会网络环境下,该方 每日发博量超过1亿条。正是因为微博有着如此庞大 法缺乏对于其他元数据的考虑,如微博的评论、转发等 的用户群和信息量,而且对人们生活的方方面面都具有 元数据。这样所得主题模型的最终某一主题下的词项 深刻影响,所以对微博信息作数据挖掘,以发现其中有 的分布仅仅只从语义上表示了词的出现概率,不能充分 价值的热点信息也愈加显得迫切和意义重大。 体现出某一主题下人们所关注的信息,即具有高热度的   对于微博文本的挖掘,应用主题模型是一个很好的 词。本文中所提的热度,逻辑上的概念指的是人们的观 方法。主题模型相对于传统的文本挖掘方法,能够高效 点、话题或者是某一词受关注的程度,从信息论的角度 地完成一些基本的工作,如发掘出文本的潜在关系、判 作出的解释是微博所包含的信息量。研究基于微博热 断关联性、分类等。但微博文本的挖掘,面临很多困难。 度的LDA主题模型正是基于此考虑:将微博热度作为分 微博用户之间具有关注和被关注的关系,微博本身具有 析计算的基数,由此能得到微博主题热度的一个分布, 转发、评论的关系,由此形成了庞大、复杂的网状社会网 而不是原始的LDA主题模型通过词频分析得出的主题 络,而且微博通常是由少于140字的短文本组成,所含 分布。当人们能够直观地看到微博中相关主题的热度 信息较少,各种网络用语导致的噪声较大,语义结构不 和主题下相关词的热度时,便能更简单地发现高热度的 规范,在进行文本挖掘时形成的文本矩阵极为稀疏,维 主题和词。 度非常高,易导致维数灾难,所以常规的分析方法并不   本文所做的主要工作如下:基于微博的评论数、转 适用。

文档评论(0)

136****3783 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档