基于评论与转发微博联合主题挖掘.docVIP

下载本文档

4
0
约8.89千字
约 15页
2018-08-30 发布于福建
举报
版权申诉

基于评论与转发微博联合主题挖掘.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于评论与转发微博联合主题挖掘

基于评论与转发微博联合主题挖掘　　摘要：微博文本简短、信息量少且语法随意，传统主题分类并不理想。Labeled LDA在LDA主题模型上附加类别标签协同计算隐含主题分配量使文本分类效果有所改进，但标签在处理隐式微博或主题频率相近的分类上，存在一定的模糊分配。本文提出的Union Labeled LDA模型通过引入评论转发信息丰富Label标签，进一步提升标签监督下的主题词频强度，一定程度上显化隐式微博、优化同频分配，采用吉布斯采样的方法求解模型。在真实数据集上的实验表明，Union Labeled LDA模型能更有效地对微博进行主题挖掘。　　关键字：微博；主题挖掘；LDA；Union Labeled LDA；词频　　中图分类号： TP391.1 文献标识码： A文章编号：2095-2163（2016）01- 　　Abstract：Microblog is brief and short， with a little information and irregular grammar， cause traditional method of topic classification’ effect is not satisfying. The Labeled LDA topic model attach classification label to original LDA model to help cooperative computing the implicit topics， but still exist some vague allocate when handling microblog whose topic frequency are neck and neck. This paper proposes to use the Union Labeled LDA model with comments and retransmissions which enrich the information of labels to enhance the supervision of topic frequency strength by themselves. The experimental results on actual dataset show that the Union Labeled LDA model can effectively mining the topics of Microblog. 　　Keywords：Microblog； Topic Mining； LDA； Union Labeled LDA； Word Frequence 　　0 引言　　随着Web技术的日益完善和大数据时代的悄然来临，微博已经成为人们思想汇聚和信息交流的重要媒介，从海量数据中挖掘出有效的主题信息，分析其内在语义关联则正日显其现实突出的技术主导作用。微博本身文本简短、数据稀疏、语法随意和网络词汇大量出现，这些特点给传统文本挖掘算法带来了挑战[1-2]。　　LDA（latent dirichlet allocation）主题模型是近年来文本挖掘领域热门研究方向，模型具有优秀的建模能力、文本分析降维能力和良好的概率模型扩展性，挖掘出的主题能帮助人们理解大数据文本背后的语义。LDA模型假设各主题权重在Dirichlet分布上相同，因此在处理隐性主题划分时存在部分主题强制分配的现象。Labeled LDA主题模型通过引入Label标签，单独对各类主题计算分布，在一定程度上克服了LDA的不足[3]。　　本文在研究LDA和Labeled LDA模型的基础上，引入微博评论与转发数据信息，进一步丰富Labeled LDA模型的Label标签信息。通过改善训练阶段Labeled LDA标签对各个主题分量的影响，更准确地确定隐含主题，提升主题挖掘效率。　　1 相关工作　　近年来文本聚类和主题挖掘广受关注，各类算法和模型不断涌现。其中主题模型（topic model）是一种概率产生式模型。模型假设主题可以根据一定规则生成单词，那么在已知文本单词情况下便可通过概率方法反推出文本集的主题分布情况[4]。最热门的主题模型就是LDA，其派生模型有ATM，Twitter LDA，Labeled LDA，MB LDA等[5-7]。　　1.1 传统的主题挖掘算法　　传统主题挖掘最早采用文本聚类的算法，使用矢量空间模型VSM（vector space model）将文本里的非结构化的数据映射到向量空间中的点，用聚类算法实现文本聚类求近似相同的主题。通常使用基于划分的算法（如K-means算法）、基于层