网站大量收购独家精品文档,联系QQ:2885784924

基于隐主题分析的中文微博话题发现.PDF

基于隐主题分析的中文微博话题发现.PDF

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于隐主题分析的中文微博话题发现

第31卷第3期 计 算 机 应 用 研 究 Vol.31No.3     2014年3月  ApplicationResearchofComputers Mar.2014 基于隐主题分析的中文微博话题发现  史剑虹,陈兴蜀 ,王文贤 (四川大学计算机学院 网络与可信计算研究所,成都610065) 摘 要:针对高维、稀疏的中文微博数据,提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点,选 取出不同时间窗口中具有较高新闻价值的微博文本;再利用隐主题模型挖掘微博内容中隐含的主题信息,并在 此基础上进行文本聚类;最后使用频繁项集挖掘技术获取话题关键词集合。该算法能够较好地实现对中文微博 数据的降维与话题发现。真实的微博数据集实验结果验证了该方法的有效性。 关键词:中文微博;话题发现;隐主题模型;文本聚类;频繁项集挖掘 中图分类号:TP391   文献标志码:A   文章编号:10013695(2014)03070005 doi:10.3969/j.issn.10013695.2014.03.014 DiscoveringtopicfromChinesemicroblogbasedonhiddentopicsanalysis  SHIJianhong,CHENXingshu,WANGWenxian (Network&TrustedComputingInstitute,SchoolofComputerScience,SichuanUniversity,Chengdu610065,China) Abstract:ForhighdimensionalandsparseChinesemicroblogdata,thispaperproposedamultistepmethodfordiscovering topic.Firstly,itcombinedwiththespreadcharacteristicsofmicroblog,itgotthemicroblogcontentwhichhadahighnewsva lue.Then,itusedthehiddentopicsanalysistechniquetomodelthetextdataandgottheresultofthetextclusteringbyusing thehiddentopicinformation.Finally,thekeywordswhichwerebestrepresentedthetopiccontentwouldbeobtainedfromthe clusteredresultsthroughfrequentitemsetsmining.TheexperimentalresultsverifythevalidityofthemethodonChinesemi croblogdataset’sdimensionalityreductionandtopicidentification. Keywords:Chinesemicroblog;topicdiscovering;hiddentopicanalysis;textclustering;frequentitemsetsmining 频过低对聚类结果的影响。上述方法操作简单,但却非常耗  引言 4]则利用上下文相关

文档评论(0)

ldj215322 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档