基于关键句的K-means算法在热点发现领域的研究与应用.pdf

基于关键句的K-means算法在热点发现领域的研究与应用.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于关键句的K-means算法在热点发现领域的研究与应用.pdf

贵 州 科 学 34(3):2016 GukhouSciertce 93 基于关键句的K—means算法在热点发现领域的研究与 应用 顾 俊 (贵州师范大学数学与计算机科学学院,贵州 贵阳 550001) 摘 要 : 由于 “互联网+”提出的,网络信息呈现爆炸的趋势。面对海量数据如何准确找到热点事件成了网民关注的话题。 文章从实际应用出发 ,首先对每一篇文本选取5句话作为该文本关键句,然后用TF.IDF计算特征词值,特征向量选择时不考 虑单个字的权重,再用K—means算法进行聚类。以新浪新闻为例,将环境、住房和违法三类话题共322篇文本作为测试语料进 行聚类,聚类准备率达到70%以上,说明选取关键句比将整个文本作为聚类对象的聚类效果好。 关键词 : 文本挖掘,TF—IDF,聚类,K—means 中图分类号 :TP391.1;N37 文献标识码:B 文章编号:1003-6563(2016)03—0093—04 Theresearchandapplication ofK -M eansalgorithm basedonkey sentencein . thefieldofhotspots GU Jun (GuiZhouNormalUniversity,MathematicsandComputerScience,Guiyang550001,China) Abstract: DuetotheproposingofI~temet+,networkinformationshowsthetendencyofexplosion.Howtoaccu— ratelyfindahotissueinthefaceofmassivedatahasbecomeaconcernofInternetusers.Thispaperstartsfrom the practicalapplication,firstlyfivesentencesareselectedfrom everytextasthekeysentences;thenTF—IDFisusedto calculatetheweightofchraacteristicwordsandtheweig【htofawordwouldn’tbetakenintoaccountwhenselecting featurevectors;LastlyitutilizesK-meansalgorithm forclustering.TakingSinaNewsasanexample,threekindsof topicsincludingEnvironment,HousingandIllegitimacycontain322textstotally,whichareclusteredastestcorpus, andclusteringprepraationratereachesmorethan70%.Theresuh showsthatthekeysentenceextractionisbetter thanthatofthewhaletextashotspotofclusteringobject. Keywords: textmining,TF—IDF,cluster,K-Means 度。本文利用 k-means聚类 算法,充分发挥文本 0 引言 中关键句的作用,从而达到热点发现[43的目的,为 舆情监控提供可能。 随着互联网+的出现,网络数据迅速增长,面对 海量数据,如何快速有效地发现热点信息成了人们 1 相关研究 日益关注的话题。网络舆情 ¨儿 已经对社会 的稳 定和网民造成一定的影响。与一般舆情不同,网络 文本聚类的研究方法比

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档