网站大量收购独家精品文档,联系QQ:2885784924

不同距离测度的k-means文本聚类研究.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
不同距离测度的k-means文本聚类研究

软件 2015 年第 36 卷 第 1 期 SOFTWARE 国际IT 传媒品牌 不同距离测度的 K-Means 文本聚类研究 陈磊磊 (北京邮电大学计算机学院 北京 100876) : 近年来,互联网和电子商务企业堆积了海量文本文档类型的数据,如何通过有效的手段对这些数据进行整理, 并进行真正有质量的数据挖掘已经成为计算机科学关注的焦点。本文对文本数据之间的相似性进行了研究,并采用 VSM 技 术和 TF-IDF 加权策略对文本文档进行了预处理。然后,采用不同测度距离作为相似性度量对数据进行了 K-Means 聚类实 验,并对实验结果进行分析和总结。最后基于之前的结论,在改善文本聚类质量方面,做出了一定的探索。 : 文本聚类;K-Means;测度距离;聚类质量 中图分类号: TP311.1 文献标识码: A DOI: 10.3969/j.issn.1003-6970.2015.01.011 本文著录格式: 陈磊磊. 不同距离测度的 K-Means 文本聚类研究[J]. 软件,2015,36(1):5661 Text Clustering Study withK-Means Algorithm of Different Distance Measures CHEN Lei-lei (School of Computer Science and Technology, Beijing University of Posts and Telecommunications, Beijing 100876) 【Abstract 】: Recently Internet and E-commerce companies have accumulated tons of text documents. How to effectively organize the data and efficiently mine them has become the focus of computer science.This articlefirstly describedthe simi- laritymetric between text data objects and preprocessed the text documents using VSM technology and TF-IDF weighting strategy.After that a series of K-Means experiments were conducted on the preprocessed dataset with different distance measure methods and a conclusion was drawnaccording to the analysis of the experimentresults. In the end, based on the earlier conclusion, some research wasconductedto improve the quality of clustering. 【Key words 】: text clustering; K-Means; distance measure; quality of clustering 0 引言 [1] 聚类(Clustering)是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程 。简而言之,聚类的 结果是样本数据对象构成的多个类或簇(cluster) ,一个簇中的对象有较高的相似度(similarity) ,而不同簇中的对 象差异较大,而这种相似度通常通过距离来度量。 文本聚类(Text C

文档评论(0)

suijiazhuang1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档