基于K_means聚類算法的研究.docVIP

下载本文档

41
0
约 4页
2016-11-27 发布于重庆
举报
版权申诉

基于K_means聚類算法的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于K_means聚類算法的研究

西南民族大学学报·自然科学版 Journal of Southwest University for Nationalities?Natural Science Edition 第 35卷第 1期 Jan. 2009 ___________________________________________________________________ 文章编号 : 1003-2843(2009)01-0198-03 基于 K-means聚类算法的研究步媛媛 1, 关忠仁 2 (1.成都信息工程学院计算机系,四川成都 610225; 2.成都信息工程学院网络中心 , 四川成都 610225) 摘要:原始的 k-means算法 [4]是从样本点的集合中随机选取 K个中心 ,这种选取具有盲目性和随意性, 它在很大程度上决定了算法的有效性.为消除选取初始中心的盲目性,应充分利用已有数据样本点的信息 .采取对数据进行预处理的方式来选取初始中心 .实验证明新的初始点的选取不仅提高了算法的计算效率 ,也提高了算法最终确定的聚类的精度 . 关键词:数据挖掘 ;聚类; k-means算法 ; 聚类中心中图分类号: TP392 文献标识码: A 1 引言聚类分析是数据挖掘中的一个重要功能 ,目前已应用于许多方面 :数据挖掘和知识发现、模式识别和模式分类、数据压缩和向量量化 .关于聚类分析有很多种方法,这些方法包括分割与合并方法、随机化方法和神经网络方法.其中在欧氏空间中的k-means聚类算法是最流行和最受关注的一种聚类分析算法. k-means是一种基于划分的聚类算法,它的思想是当一个类确定后,将类中数据点的几何平均值取为类的中心.其中初始聚类中心的选择对聚类结果的影响是很大的.如图所示 ,图 1是三个类的实际分布 ,图 2 是选取了较好的初始聚类中心(+字标记的数据对象是聚类中心)得到的结果,图 3是选取不大好的初始聚类中心得到的结果.从中可以看到 ,图 2所示的类内部数据对象相似度和类与类之间的相异度均高于图 3所示 , 最主要的体现是数据分布稠密.因此合理地选择初始聚类中心是很关键的.类似图 3所示之类的选取聚类中心的k-means 算法的结果会导致聚类算法效率低 ,算法迭代次数较多 , CPU运行时间较长.因此怎样找到一组初始中心点, 从而获得一个较好的聚类效果并提高聚类结果的精确度对 k-means算法具有重要意义 . 图 1 三个类的实际分布图 2 选取了较好中心的聚类结果图 3 选取不好聚类中心的结果本文提出了一种寻找初始聚类中心的方法,使得初始聚类中心的分布尽可能体现数据的实际分布 . 实验表明了这种算法的可行性和有效性 . 2 原始的 k-means聚类算法[4]及改进的算法分析 2.1 原始 k-means聚类算法 ___________________________ 收稿日期：2008-10-13 作者简介：步媛媛(1984-),女,成都信息工程学院计算机系在读硕士研究生;关忠仕(1957-),男,成都信息工程学院网络中心高级工程师,硕士生导师. _第__1_期____________________步媛媛等:基于K-means聚类算法__________________的研__究_____________________199__ 设待聚类的数据集 : X={x1,x2,L,xn}, k个聚类中心分别为 zi , i=1, 2, ....n.有如下定义 : 定义1:两个数据对象间的欧几里德距离为 d(i, j)= | xi1? x j1 | + | xi2? x j2 | +L+ | xip? x jp | 2 2 2 这里的i=( xi1,xi2,L,xip )和j=( x j1,x j2,L,x jp )是两个 p维的数据