基于K_means聚類算法的研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于K_means聚類算法的研究

西南民族大学学报·自然科学版 Journal of Southwest University for Nationalities?Natural Science Edition 第 35卷第 1期 Jan. 2009 ___________________________________________________________________ 文章编号 : 1003-2843(2009)01-0198-03 基于 K-means聚类算法的研究 步媛媛 1, 关忠仁 2 (1.成都信息工程学院计算机系,四川 成都 610225; 2.成都信息工程学院网络中心 , 四川 成都 610225) 摘要:原始的 k-means算法 [4]是从 样本点的集合 中随机选取 K个中心 ,这种选取具有盲目性和随意性, 它在 很大程度上 决定了算法的有 效性.为消除选取初始中心的盲目 性,应充分利用已有数据样本 点的信息 .采取对数据进行 预处理的方 式来 选取初始中心 .实验 证明新的初始 点的选 取不仅提高了算法的计 算效率 ,也提高了算法最终确定的聚 类的精度 . 关键词:数据挖掘 ;聚类; k-means算法 ; 聚类中心 中图分类号: TP392 文献标识码: A 1 引言 聚类分析是数据挖掘中 的一个重要功能 ,目前已应用于许多方面 :数据挖掘和知识发 现、模式 识别和模式 分 类、数据压缩和向 量量化 .关于聚类分析有很多种方法,这些方法包括分割与合并方法、随机化方法和神经 网络 方法.其中在欧氏 空间 中的k-means聚类算法是最流行和最受关注的一种聚类分析算法. k-means是一种基于划分的聚类算法,它的思 想是当 一个类确定后,将类中数据点的几何 平均值取为类的 中心.其中初始聚类中心的选择对聚类结果的影响是很大的.如图所示 ,图 1是三个类的实际 分布 ,图 2 是选取了 较好的初始聚类中心(+字标记的数据对 象是聚类中心)得到的结果,图 3是选取不大好的初始聚类中心得到的结 果.从中可以看到 ,图 2所示的类内部数据对 象相似度和类与类之间 的相异度均高 于图 3所示 , 最主要的体现是 数据分布 稠密.因此合理地选择初始聚类中心是很关键的.类似图 3所示之类的选取聚类中心的k-means 算法的 结果会导致聚类算法效率低 ,算法迭代次数较多 , CPU运行时间 较长.因此怎样找到一组初始中心点, 从而获得 一个较好的聚类效果并提高聚类结果的精确度对 k-means算法具有重要意义 . 图 1 三个类的实际分布 图 2 选取了较好中心的聚类结果 图 3 选取不好聚类中心的结果 本文提出了一种寻找初始聚类中心的方法,使得初始 聚类中心的分布尽可能体现数据的实际 分布 . 实验 表 明了这种算法的可行性和有效性 . 2 原始的 k-means聚类算法[4]及改进的算法分析 2.1 原始 k-means聚类算法 ___________________________ 收稿日期:2008-10-13 作者简介:步媛媛(1984-),女,成都信息工程学院计算机系在读 硕士研究生;关忠仕(1957-),男,成都信息工程学院网络中心高级 工程师,硕士生导师. _第__1_期____________________步媛媛等:基于K-means聚类算法__________________的研__究_____________________199__ 设待 聚类的数据集 : X={x1,x2,L,xn}, k个聚类中心分别为 zi , i=1, 2, ....n.有如下定义 : 定义1:两个数据对象间的欧几里德距离为 d(i, j)= | xi1? x j1 | + | xi2? x j2 | +L+ | xip? x jp | 2 2 2 这里的i=( xi1,xi2,L,xip )和j=( x j1,x j2,L,x jp )是两个 p维的数据

文档评论(0)

fglgf11gf21gI + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档