- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于K_means聚類算法的研究
西南民族大学学报·自然科学版
Journal of Southwest University for Nationalities?Natural Science Edition
第 35卷第 1期
Jan. 2009
___________________________________________________________________
文章编号 : 1003-2843(2009)01-0198-03
基于 K-means聚类算法的研究
步媛媛 1, 关忠仁 2
(1.成都信息工程学院计算机系,四川 成都 610225; 2.成都信息工程学院网络中心 , 四川 成都
610225)
摘要:原始的 k-means算法 [4]是从 样本点的集合 中随机选取 K个中心 ,这种选取具有盲目性和随意性, 它在 很大程度上
决定了算法的有 效性.为消除选取初始中心的盲目 性,应充分利用已有数据样本 点的信息 .采取对数据进行 预处理的方
式来 选取初始中心 .实验 证明新的初始 点的选 取不仅提高了算法的计 算效率 ,也提高了算法最终确定的聚 类的精度 .
关键词:数据挖掘 ;聚类; k-means算法 ; 聚类中心
中图分类号: TP392
文献标识码: A
1 引言
聚类分析是数据挖掘中 的一个重要功能 ,目前已应用于许多方面 :数据挖掘和知识发 现、模式 识别和模式 分
类、数据压缩和向 量量化 .关于聚类分析有很多种方法,这些方法包括分割与合并方法、随机化方法和神经 网络
方法.其中在欧氏 空间 中的k-means聚类算法是最流行和最受关注的一种聚类分析算法.
k-means是一种基于划分的聚类算法,它的思 想是当 一个类确定后,将类中数据点的几何 平均值取为类的
中心.其中初始聚类中心的选择对聚类结果的影响是很大的.如图所示 ,图 1是三个类的实际 分布 ,图 2 是选取了
较好的初始聚类中心(+字标记的数据对 象是聚类中心)得到的结果,图 3是选取不大好的初始聚类中心得到的结
果.从中可以看到 ,图 2所示的类内部数据对 象相似度和类与类之间 的相异度均高 于图 3所示 , 最主要的体现是
数据分布 稠密.因此合理地选择初始聚类中心是很关键的.类似图 3所示之类的选取聚类中心的k-means 算法的
结果会导致聚类算法效率低 ,算法迭代次数较多 , CPU运行时间 较长.因此怎样找到一组初始中心点, 从而获得
一个较好的聚类效果并提高聚类结果的精确度对 k-means算法具有重要意义 .
图 1 三个类的实际分布
图 2 选取了较好中心的聚类结果
图 3 选取不好聚类中心的结果
本文提出了一种寻找初始聚类中心的方法,使得初始 聚类中心的分布尽可能体现数据的实际 分布 . 实验 表
明了这种算法的可行性和有效性 .
2 原始的 k-means聚类算法[4]及改进的算法分析
2.1 原始 k-means聚类算法
___________________________
收稿日期:2008-10-13
作者简介:步媛媛(1984-),女,成都信息工程学院计算机系在读 硕士研究生;关忠仕(1957-),男,成都信息工程学院网络中心高级
工程师,硕士生导师.
_第__1_期____________________步媛媛等:基于K-means聚类算法__________________的研__究_____________________199__
设待 聚类的数据集 : X={x1,x2,L,xn}, k个聚类中心分别为 zi , i=1, 2, ....n.有如下定义 :
定义1:两个数据对象间的欧几里德距离为 d(i, j)=
| xi1? x j1 | + | xi2? x j2 | +L+ | xip? x jp |
2 2 2
这里的i=( xi1,xi2,L,xip )和j=( x j1,x j2,L,x jp )是两个 p维的数据
文档评论(0)