不同距离测度的k-means文本聚类研究.pdfVIP

下载本文档

29
0
约1.22万字
约 6页
2017-11-15 发布于天津
举报
版权申诉

不同距离测度的k-means文本聚类研究.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

不同距离测度的k-means文本聚类研究

软件 2015 年第 36 卷第 1 期 SOFTWARE 国际IT 传媒品牌不同距离测度的 K-Means 文本聚类研究陈磊磊 (北京邮电大学计算机学院北京 100876) : 近年来，互联网和电子商务企业堆积了海量文本文档类型的数据，如何通过有效的手段对这些数据进行整理，并进行真正有质量的数据挖掘已经成为计算机科学关注的焦点。本文对文本数据之间的相似性进行了研究，并采用 VSM 技术和 TF-IDF 加权策略对文本文档进行了预处理。然后，采用不同测度距离作为相似性度量对数据进行了 K-Means 聚类实验，并对实验结果进行分析和总结。最后基于之前的结论，在改善文本聚类质量方面，做出了一定的探索。 : 文本聚类；K-Means；测度距离；聚类质量中图分类号: TP311.1 文献标识码: A DOI： 10.3969/j.issn.1003-6970.2015.01.011 本文著录格式：陈磊磊. 不同距离测度的 K-Means 文本聚类研究[J]. 软件，2015，36(1)：5661 Text Clustering Study withK-Means Algorithm of Different Distance Measures CHEN Lei-lei (School of Computer Science and Technology, Beijing University of Posts and Telecommunications, Beijing 100876) 【Abstract 】: Recently Internet and E-commerce companies have accumulated tons of text documents. How to effectively organize the data and efficiently mine them has become the focus of computer science.This articlefirstly describedthe simi- laritymetric between text data objects and preprocessed the text documents using VSM technology and TF-IDF weighting strategy.After that a series of K-Means experiments were conducted on the preprocessed dataset with different distance measure methods and a conclusion was drawnaccording to the analysis of the experimentresults. In the end, based on the earlier conclusion, some research wasconductedto improve the quality of clustering. 【Key words 】: text clustering; K-Means; distance measure; quality of clustering 0 引言 [1] 聚类(Clustering)是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。简而言之，聚类的结果是样本数据对象构成的多个类或簇(cluster) ，一个簇中的对象有较高的相似度(similarity) ，而不同簇中的对象差异较大，而这种相似度通常通过距离来度量。文本聚类(Text C