- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
不同距离测度的k-means文本聚类研究
软件 2015 年第 36 卷 第 1 期 SOFTWARE 国际IT 传媒品牌
不同距离测度的 K-Means 文本聚类研究
陈磊磊
(北京邮电大学计算机学院 北京 100876)
: 近年来,互联网和电子商务企业堆积了海量文本文档类型的数据,如何通过有效的手段对这些数据进行整理,
并进行真正有质量的数据挖掘已经成为计算机科学关注的焦点。本文对文本数据之间的相似性进行了研究,并采用 VSM 技
术和 TF-IDF 加权策略对文本文档进行了预处理。然后,采用不同测度距离作为相似性度量对数据进行了 K-Means 聚类实
验,并对实验结果进行分析和总结。最后基于之前的结论,在改善文本聚类质量方面,做出了一定的探索。
: 文本聚类;K-Means;测度距离;聚类质量
中图分类号: TP311.1 文献标识码: A DOI: 10.3969/j.issn.1003-6970.2015.01.011
本文著录格式: 陈磊磊. 不同距离测度的 K-Means 文本聚类研究[J]. 软件,2015,36(1):5661
Text Clustering Study withK-Means Algorithm of Different Distance Measures
CHEN Lei-lei
(School of Computer Science and Technology, Beijing University of Posts and Telecommunications, Beijing 100876)
【Abstract 】: Recently Internet and E-commerce companies have accumulated tons of text documents. How to effectively
organize the data and efficiently mine them has become the focus of computer science.This articlefirstly describedthe simi-
laritymetric between text data objects and preprocessed the text documents using VSM technology and TF-IDF weighting
strategy.After that a series of K-Means experiments were conducted on the preprocessed dataset with different distance
measure methods and a conclusion was drawnaccording to the analysis of the experimentresults. In the end, based on the
earlier conclusion, some research wasconductedto improve the quality of clustering.
【Key words 】: text clustering; K-Means; distance measure; quality of clustering
0 引言
[1]
聚类(Clustering)是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程 。简而言之,聚类的
结果是样本数据对象构成的多个类或簇(cluster) ,一个簇中的对象有较高的相似度(similarity) ,而不同簇中的对
象差异较大,而这种相似度通常通过距离来度量。
文本聚类(Text C
您可能关注的文档
- -北京大学网络与信息系统研究所.doc
- -南方医科大学综合信息门户.doc
- -广州从化区住房和建设局.doc
- 2005年公路工程质量统计分析报告-湖州交通质监站湖州交通工程.doc
- 2006财政年要点.pdf
- 2009年重庆建筑业生产情况分析.pdf
- 2010年质量检查用表.doc
- 2011年主考学校自办助学专业一览表-江苏教育考试院.doc
- 2011高考物理最近6年真题解析10.doc
- 2010年无锡医院管理中心直属医疗机构骨科医用耗材网上集中采购.pdf
- 福莱特玻璃集团股份有限公司海外监管公告 - 福莱特玻璃集团股份有限公司2024年度环境、社会及管治报告.pdf
- 广哈通信:2024年度环境、社会及治理(ESG)报告.pdf
- 招商证券股份有限公司招商证券2024年度环境、社会及管治报告.pdf
- 宏信建设发展有限公司2024 可持续发展暨环境、社会及管治(ESG)报告.pdf
- 品创控股有限公司环境、社会及管治报告 2024.pdf
- 中信建投证券股份有限公司2024可持续发展暨环境、社会及管治报告.pdf
- 洛阳栾川钼业集团股份有限公司环境、社会及管治报告.pdf
- 361度国际有限公司二零二四年环境、社会及管治报告.pdf
- 中国神华能源股份有限公司2024年度环境、社会及管治报告.pdf
- 广西能源:2024年环境、社会及治理(ESG)报告.pdf
文档评论(0)