- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第58卷 第5期 2014年3月
基于LDA模型和微博热度的热点挖掘
■ 唐晓波 向坤
[摘 要]分析传统LDA模型在进行微博热点挖掘时所得概率结果抽象且难以结合实际解释的缺点;考虑
到微博本身的数据特点和信息论中信息量的观点,提出微博热度的概念,并将其引入到LDA模型的热点挖掘
研究中,构建基于微博热度的LDA模型;通过API采集微博数据上的实验,证明新方法与旧方法具有相同的性
能,而且能得到更直观的微博热度表,并得出更具有说服力的挖掘结论。
[关键词]LDA 微博热度 主题模型 热点挖掘
[分类号]G203
DOI:10.13266/j.issn.0252-3116.2014.05.010
1 引 言 由于微博信息构成的文本矩阵的稀疏性和高维性,
本文使用基于潜在语义分析的文本挖掘方法来进行微
随着Web2.0的互联网产品模式的迅速发展,微博 博主题的挖掘,主要使用LDA模型———一种基于潜在
这一新时代的互联网社交网络工具也越来越深入到人 狄利克雷分布的主题生成模型。在这个主题模型中,一
们的生活之中。中国的微博从2007年发展至今,已经拥 系列主题以服从多项式分布的形式生成每个文本,再从
有上亿用户群。不仅是个人,越来越多的机构,包括政 这些主题中同样以服从多项式分布的方式抽样出每个
府部门、企业单位、社会群体等都建立了自己的官方微 单词,由此构成该模型围绕主题生成文本的过程。
博,以此来发表自己的观点和最新动态等信息。新浪微 [1]
在传统的LDA主题模型 中,分析计算的基数是词
博自2009年8月推出以来,截至2012年12月底,其注 频。词频可以被看作是微博的一项元数据特征,而微博
册用户已超过5亿人,日活跃用户达到4620万人,用户 [2]
具有多项元数据 ,在微博这个社会网络环境下,该方
每日发博量超过1亿条。正是因为微博有着如此庞大 法缺乏对于其他元数据的考虑,如微博的评论、转发等
的用户群和信息量,而且对人们生活的方方面面都具有 元数据。这样所得主题模型的最终某一主题下的词项
深刻影响,所以对微博信息作数据挖掘,以发现其中有 的分布仅仅只从语义上表示了词的出现概率,不能充分
价值的热点信息也愈加显得迫切和意义重大。 体现出某一主题下人们所关注的信息,即具有高热度的
对于微博文本的挖掘,应用主题模型是一个很好的 词。本文中所提的热度,逻辑上的概念指的是人们的观
方法。主题模型相对于传统的文本挖掘方法,能够高效 点、话题或者是某一词受关注的程度,从信息论的角度
地完成一些基本的工作,如发掘出文本的潜在关系、判 作出的解释是微博所包含的信息量。研究基于微博热
断关联性、分类等。但微博文本的挖掘,面临很多困难。 度的LDA主题模型正是基于此考虑:将微博热度作为分
微博用户之间具有关注和被关注的关系,微博本身具有 析计算的基数,由此能得到微博主题热度的一个分布,
转发、评论的关系,由此形成了庞大、复杂的网状社会网 而不是原始的LDA主题模型通过词频分析得出的主题
络,而且微博通常是由少于140字的短文本组成,所含 分布。当人们能够直观地看到微博中相关主题的热度
信息较少,各种网络用语导致的噪声较大,语义结构不 和主题下相关词的热度时,便能更简单地发现高热度的
规范,在进行文本挖掘时形成的文本矩阵极为稀疏,维 主题和词。
度非常高,易导致维数灾难,所以常规的分析方法并不 本文所做的主要工作如下:基于微博的评论数、转
适用。
您可能关注的文档
- 周围型肺腺癌的高分辨率CT表现与最新病理分型的-中国癌症杂志.PDF
- 周俊诊断与改进质量自我提升的不竭动力.PDF
- 咸阳国际机场大轴力桥梁桩基托换技术试验研究.PDF
- 呼中林区火烧迹地遥感提取及林火烈度的空间分析-林业科学.PDF
- 品检及量测-崑山科技大学机构典藏.PDF
- 品牌农业发展的潍坊探索-寿光蔬菜.PDF
- 呼吸面罩及管路配件系统BestFit2口鼻呼吸面罩带防窒息阀-凯迪泰.PDF
- 咪唑醋酸盐的制备和物理化学性质及其水和乙醇溶液的-物理化学学报.PDF
- 品种成分性能适用范围硅酸盐水泥1水泥熟料及少1凝结硬化快.PDF
- 咪唑化合物在金属铜上形成表面膜的可焊性研究-北京化工大学学报.PDF
- 基于GIS的层次分析法在蓄滞洪区启用次序决策中的应用-长江科学院.PDF
- 基于Landsat8OLI影像纹理特征的面向对象土地-IngentaConnect.PDF
- 基于LDA的多粒度主题情感混合模型-电子学报.PDF
- 基于MATLABandSimulink的DPD仿真-MathWorks.PDF
- 基于Matlab语言的有限元法及其应用.PDF
- 基于HY-2卫星观测分析南海风浪关系-国家海洋局第三海洋研究所.PDF
- 基于MATLAB的二元线性回归在小孔流速试验中的应用.PDF
- 基于LOG和Canny算子的边缘检测算法-计算机工程.PDF
- 基于MEEMD和GA-SVM的列车车轮多边形故障识别-噪声与振动控制.PDF
- 基于N-X的机群系统功耗限额控制.PDF
最近下载
- 2025年建筑起重信号司索工考试题库(含答案).docx VIP
- (2025年)建筑起重信号司索工考试题库(含答案).docx VIP
- 2024年昆明医科大学海源学院马克思主义基本原理概论期末考试题推荐.docx VIP
- 2024年昆明医科大学海源学院马克思主义基本原理概论期末考试题汇编.docx VIP
- 信息安全等级保护二级建设方案.docx VIP
- 2024年昆明医科大学海源学院马克思主义基本原理概论期末考试题带答案.docx VIP
- Gema金马OptiSelect手动静电粉末喷枪用户手册.pdf
- 东元伺服简易型JSDEP使用.pdf
- 素质报告册小学生评语.docx VIP
- 2025年版信息科技新课标《义务教育信息科技课程标准(2025年版)》解读PP.pptx VIP
原创力文档


文档评论(0)