一种基于textrank的文本二次聚类算法-西安邮电大学.pdfVIP

下载本文档

12
0
约3.44万字
约 5页
2017-09-03 发布于天津
举报
版权申诉

一种基于textrank的文本二次聚类算法-西安邮电大学.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于textrank的文本二次聚类算法-西安邮电大学

26 8 计算机技术与发展 Vol． 26 No． 8 第卷第期 2016 8 Aug． 2016 年月 COMPUTEＲ TECHNOLOGY AND DEVELOPMENT 一种基于TextＲank 的文本二次聚类算法，，潘晓英胡开开朱静 ( ， 7 10 121) 西安邮电大学计算机学院陕西西安 : ，摘要针对传统文本聚类技术中存在的聚类精度一般或者运算时间复杂度过高等问题文中首先介绍了两种较为常用 : K － means LDA 。， TextＲank 的文本聚类技术基于划分的和基于主题模型的在分析各自缺陷的基础上提出一种基于的文。，，本二次聚类算法该算法借鉴主题模型的思想在传统的聚类过程中引入词聚类并在关键词提取阶段融合词语的位置，。，与跨度特征减少了由局部关键词作为全局关键词带来的误差实验结果表明改进后的算法在聚类效果上要优于传统的VSM 聚类和基于主题模型的LDA 算法。 : ;TextＲank ; ; ;LDA 关键词文本聚类关键词提取向量空间模型中图分类号:TP391． 9 文献标识码:A 文章编号:1673 － 629X (2016)08 － 0007 － 05 doi :10 ． 3969 /j ． issn． 1673 － 629X ． 2016 ． 08． 002 A Secondary Text Clustering Algorithm Based on TextＲank PAN Xiao － ying ，HU Kai － kai ，Z HU Jing (School of Computer ，Xi ’an University of Posts ＆ Telecommunications ，Xi ’an 7 10121，China) Abstract :In view of the existing problems in the traditional text clustering technology ，such as the general accuracy or the higher time complexity ，tw o kinds of the commonly used text clustering technology are introduced at first ，including K － means based on the division and LDA based on the theme． On th