- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于关键句的K-means算法在热点发现领域的研究与应用.pdf
贵 州 科 学 34(3):2016
GukhouSciertce 93
基于关键句的K—means算法在热点发现领域的研究与
应用
顾 俊
(贵州师范大学数学与计算机科学学院,贵州 贵阳 550001)
摘 要 : 由于 “互联网+”提出的,网络信息呈现爆炸的趋势。面对海量数据如何准确找到热点事件成了网民关注的话题。
文章从实际应用出发 ,首先对每一篇文本选取5句话作为该文本关键句,然后用TF.IDF计算特征词值,特征向量选择时不考
虑单个字的权重,再用K—means算法进行聚类。以新浪新闻为例,将环境、住房和违法三类话题共322篇文本作为测试语料进
行聚类,聚类准备率达到70%以上,说明选取关键句比将整个文本作为聚类对象的聚类效果好。
关键词 : 文本挖掘,TF—IDF,聚类,K—means
中图分类号 :TP391.1;N37 文献标识码:B 文章编号:1003-6563(2016)03—0093—04
Theresearchandapplication ofK -M eansalgorithm basedonkey sentencein
.
thefieldofhotspots
GU Jun
(GuiZhouNormalUniversity,MathematicsandComputerScience,Guiyang550001,China)
Abstract: DuetotheproposingofI~temet+,networkinformationshowsthetendencyofexplosion.Howtoaccu—
ratelyfindahotissueinthefaceofmassivedatahasbecomeaconcernofInternetusers.Thispaperstartsfrom the
practicalapplication,firstlyfivesentencesareselectedfrom everytextasthekeysentences;thenTF—IDFisusedto
calculatetheweightofchraacteristicwordsandtheweig【htofawordwouldn’tbetakenintoaccountwhenselecting
featurevectors;LastlyitutilizesK-meansalgorithm forclustering.TakingSinaNewsasanexample,threekindsof
topicsincludingEnvironment,HousingandIllegitimacycontain322textstotally,whichareclusteredastestcorpus,
andclusteringprepraationratereachesmorethan70%.Theresuh showsthatthekeysentenceextractionisbetter
thanthatofthewhaletextashotspotofclusteringobject.
Keywords: textmining,TF—IDF,cluster,K-Means
度。本文利用 k-means聚类 算法,充分发挥文本
0 引言 中关键句的作用,从而达到热点发现[43的目的,为
舆情监控提供可能。
随着互联网+的出现,网络数据迅速增长,面对
海量数据,如何快速有效地发现热点信息成了人们 1 相关研究
日益关注的话题。网络舆情 ¨儿 已经对社会 的稳
定和网民造成一定的影响。与一般舆情不同,网络 文本聚类的研究方法比
文档评论(0)