- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
114 2012 ,48 (35) Computer Engineering and Applications 计算机工程与应用
一种融合变异系数的k-mean 聚类分析方法
范阿琳,任树华
FAN Alin, REN Shuhua
大连工业大学 信息科学与工程学院,辽宁 大连 116034
School of Information Science and Engineering, Dalian Polytechnic University, Dalian, Liaoning 116034, China
FAN Alin, REN Shuhua. K-means clustering algorithm based on coefficient of variation. Computer Engineer-
ing and Applications, 2012, 48 (35 ):114-117.
Abstract :The performance of k-means clustering algorithm depends on the selection of distance metrics. The Eu-
clid distance is commonly chosen as the similarity measure in k-means clustering algorithm, which treats all features
equally and does not accurately reflect the dissimilarity among samples. K-means clustering algorithm based on Co-
efficient of Variation (CV-k-means)is proposed in this paper to solve this problem. The CV-k-means clustering algo-
rithm uses variation coefficient weight vector to decrease the affects of irrelevant features. The experimental results
show that the proposed algorithm can generate better clustering results than k-means algorithm.
Key words :k-means clustering; dissimilarity measure; weighting; coefficient of variation
摘 要:K-means 聚类算法的性能依赖于距离度量的选择,k-means 算法将欧几里德距离作为最常用的距离度
量方法。欧氏距离认为所有属性在聚类中作用是相同的,但是这种距离度量方法并不能准确反映样本间的相
异性。针对这种不足,提出了融合变异系数的k-means 聚类分析方法(CV-k-means ),利用变异系数权重向量来
减少不相关属性的影响。实验结果表明,该方法的聚类结果优于k-means 算法。
关键词:k-means 算法;相异性度量;权;变异系数
文献标识码:A 中图分类号:TP301 doi :10.3778/j.issn. 1002-8331.1105-0630
1 引言 算法简单、快速且聚类效果稳定的特点,对处理大数
[1] 据集,该算法是相对可伸缩和高效的。K-means 算法
聚类分析 是重要的数据分析方法之一,已经广
[3-4]
泛地用在许多应用中,包括模式识别、数据分析、图 的应用领域非常广泛,包括图像及语音数据压缩 ,
[5]
像处理以及
文档评论(0)