基于邻域模型的K-means初始聚类中心选择算法.pdf

基于邻域模型的K-means初始聚类中心选择算法.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于邻域模型的K-means初始聚类中心选择算法

基于邻域模型的K-means 初始聚类中心选择算法1 1,2 1,2 1,2 曹付元 ,梁吉业 ,姜广 1 计算智能与中文信息处理省部共建教育部重点实验室,太原 (030006) 2 山西大学计算机与信息技术学院,太原 (030006) E-mail :cfy@ 摘 要:传统的 K-means 算法由于其方法简单,在模式识别和机器学习中被广泛讨论和应 用.但由于 K-means 算法随机选择初始聚类中心,而初始聚类中心的选择对最终的聚类结果 有着直接的影响,因此算法不能保证得到一个唯一的聚类结果. 本文利用邻域模型中对象邻 域的上下近似,定义了对象邻域耦合度和分离度的概念,给出了对象在初始聚类中心选择中 的重要性,提出了一种初始聚类中心的选择算法. 另外,分析了邻域模型中三种范数对聚类 精度的影响,并和随机选择初始聚类中心、CCIA 选择初始聚类中心算法进行了比较,实验 结果表明,该算法是有效的. 关键词:邻域模型;初始聚类中心;K-means 聚类;粗糙集 聚类分析是数据挖掘研究和应用中的 的影响,聚类结果只能是局部最优,且不能 一个重要部分,由于聚类算法不对数据作任 保证得到一个唯一的聚类结果. 针对初始聚 何统计假设,在模式识别和人工智能等领 类中心的选择,许多学者进行了研究. R. O. 域,聚类算法常被称为一种无监督的学习. Duda 和P. E. Hart 提出了一种初始平均值的 聚类分析是将数据对象分组成多个类或多 回归方法[9]. P. S. Bradley 等提出了一种优 个簇,在同一个簇中的对象具有较高的相似 化初始点的过程[10]. J. M. Penā 等对 度,而不同簇中的对象差别较大[1]. 目前聚 K-means 算法的不同初始方法进行了比较 类分析已被广泛应用于金融欺诈、医疗诊 [11]. S. S. Khan 和A. Ahmad 提出了一种针 断、图像处理、信息检索和生物信息学等研 对 K-means 算法的聚类中心初始化算法 究领域. (CCIA )[12]. 实验结果表明这些算法都优 自20 世纪60 年代以来,聚类算法被广 于传统的K-means 算法,且随机和Kaufman 泛研究并得到了很好的应用[2-5],其中 1967 初始化方法优于其它的初始化方法,因为它 年Q. J. Mac 提出的K-means 聚类算法[6], 不依赖于对象的序[11]. 由于其方法简单,已成为当前最流行的聚类 T. Y. Lin 提出了邻域模型的概念[13], 算法之一,特别数据分布呈现类内团聚状, 该模型通过空间点的邻域来粒化论域空间, 该算法能得到很好的聚类结果. 但 K-means 将邻域理解为基本信息粒子,用来描述空间 算法只适用于数值型数据,因此许多研究者 中的其他概念. Y. Y. Yao 和W. Z. Wu 分别研 对K-means 算法进行了扩展,Z. X. Huang 究了 1-step 和 k-step 邻域信息系统的性质 提出了K-modes 和K-prototypes 算法[7]. A. [14,15]. Q. H. Hu 等利用拓扑空间中球形邻 Ahmad 提出了针对混合数据的 K-means 聚 域的概念,构造了基于邻域粗糙集模型的特 类算法[8]. 但

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档