基于LDA模型和微博热度的热点挖掘-图书情报工作.PDF

下载文档 降价啦

38
1
约2.6万字
约 6页
2019-05-25 发布于天津
举报
版权申诉
保障服务

基于LDA模型和微博热度的热点挖掘-图书情报工作.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第５８卷第５期　２０１４年３月基于ＬＤＡ模型和微博热度的热点挖掘 ■ 唐晓波　向坤［摘　要］分析传统ＬＤＡ模型在进行微博热点挖掘时所得概率结果抽象且难以结合实际解释的缺点；考虑到微博本身的数据特点和信息论中信息量的观点，提出微博热度的概念，并将其引入到ＬＤＡ模型的热点挖掘研究中，构建基于微博热度的ＬＤＡ模型；通过ＡＰＩ采集微博数据上的实验，证明新方法与旧方法具有相同的性能，而且能得到更直观的微博热度表，并得出更具有说服力的挖掘结论。［关键词］ＬＤＡ　微博热度　主题模型　热点挖掘［分类号］Ｇ２０３　　ＤＯＩ：１０．１３２６６／ｊ．ｉｓｓｎ．０２５２－３１１６．２０１４．０５．０１０１　引　言　　由于微博信息构成的文本矩阵的稀疏性和高维性，本文使用基于潜在语义分析的文本挖掘方法来进行微　　随着Ｗｅｂ２．０的互联网产品模式的迅速发展，微博博主题的挖掘，主要使用ＬＤＡ模型———一种基于潜在这一新时代的互联网社交网络工具也越来越深入到人狄利克雷分布的主题生成模型。在这个主题模型中，一们的生活之中。中国的微博从２００７年发展至今，已经拥系列主题以服从多项式分布的形式生成每个文本，再从有上亿用户群。不仅是个人，越来越多的机构，包括政这些主题中同样以服从多项式分布的方式抽样出每个府部门、企业单位、社会群体等都建立了自己的官方微单词，由此构成该模型围绕主题生成文本的过程。博，以此来发表自己的观点和最新动态等信息。新浪微［１］　　在传统的ＬＤＡ主题模型中，分析计算的基数是词博自２００９年８月推出以来，截至２０１２年１２月底，其注频。词频可以被看作是微博的一项元数据特征，而微博册用户已超过５亿人，日活跃用户达到４６２０万人，用户［２］具有多项元数据，在微博这个社会网络环境下，该方每日发博量超过１亿条。正是因为微博有着如此庞大法缺乏对于其他元数据的考虑，如微博的评论、转发等的用户群和信息量，而且对人们生活的方方面面都具有元数据。这样所得主题模型的最终某一主题下的词项深刻影响，所以对微博信息作数据挖掘，以发现其中有的分布仅仅只从语义上表示了词的出现概率，不能充分价值的热点信息也愈加显得迫切和意义重大。体现出某一主题下人们所关注的信息，即具有高热度的　　对于微博文本的挖掘，应用主题模型是一个很好的词。本文中所提的热度，逻辑上的概念指的是人们的观方法。主题模型相对于传统的文本挖掘方法，能够高效点、话题或者是某一词受关注的程度，从信息论的角度地完成一些基本的工作，如发掘出文本的潜在关系、判作出的解释是微博所包含的信息量。研究基于微博热断关联性、分类等。但微博文本的挖掘，面临很多困难。度的ＬＤＡ主题模型正是基于此考虑：将微博热度作为分微博用户之间具有关注和被关注的关系，微博本身具有析计算的基数，由此能得到微博主题热度的一个分布，转发、评论的关系，由此形成了庞大、复杂的网状社会网而不是原始的ＬＤＡ主题模型通过词频分析得出的主题络，而且微博通常是由少于１４０字的短文本组成，所含分布。当人们能够直观地看到微博中相关主题的热度信息较少，各种网络用语导致的噪声较大，语义结构不和主题下相关词的热度时，便能更简单地发现高热度的规范，在进行文本挖掘时形成的文本矩阵极为稀疏，维主题和词。度非常高，易导致维数灾难，所以常规的分析方法并不　　本文所做的主要工作如下：基于微博的评论数、转适用。