基于邻域模型的K-means初始聚类中心选择算法.pdf

下载文档

4
0
约3.39万字
约 7页
2017-08-21 发布于河南
举报
版权申诉
保障服务

基于邻域模型的K-means初始聚类中心选择算法.pdf

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于邻域模型的K-means初始聚类中心选择算法

基于邻域模型的K-means 初始聚类中心选择算法1 1，2 1，2 1，2 曹付元，梁吉业，姜广 1 计算智能与中文信息处理省部共建教育部重点实验室，太原 (030006) 2 山西大学计算机与信息技术学院，太原 (030006) E-mail ：cfy@ 摘要：传统的 K-means 算法由于其方法简单，在模式识别和机器学习中被广泛讨论和应用.但由于 K-means 算法随机选择初始聚类中心，而初始聚类中心的选择对最终的聚类结果有着直接的影响，因此算法不能保证得到一个唯一的聚类结果. 本文利用邻域模型中对象邻域的上下近似，定义了对象邻域耦合度和分离度的概念，给出了对象在初始聚类中心选择中的重要性，提出了一种初始聚类中心的选择算法. 另外，分析了邻域模型中三种范数对聚类精度的影响，并和随机选择初始聚类中心、CCIA 选择初始聚类中心算法进行了比较，实验结果表明，该算法是有效的. 关键词：邻域模型；初始聚类中心；K-means 聚类；粗糙集聚类分析是数据挖掘研究和应用中的的影响，聚类结果只能是局部最优，且不能一个重要部分，由于聚类算法不对数据作任保证得到一个唯一的聚类结果. 针对初始聚何统计假设，在模式识别和人工智能等领类中心的选择，许多学者进行了研究. R. O. 域，聚类算法常被称为一种无监督的学习. Duda 和P. E. Hart 提出了一种初始平均值的聚类分析是将数据对象分组成多个类或多回归方法[9]. P. S. Bradley 等提出了一种优个簇，在同一个簇中的对象具有较高的相似化初始点的过程[10]. J. M. Penā 等对度，而不同簇中的对象差别较大[1]. 目前聚 K-means 算法的不同初始方法进行了比较类分析已被广泛应用于金融欺诈、医疗诊 [11]. S. S. Khan 和A. Ahmad 提出了一种针断、图像处理、信息检索和生物信息学等研对 K-means 算法的聚类中心初始化算法究领域. （CCIA ）[12]. 实验结果表明这些算法都优自20 世纪60 年代以来，聚类算法被广于传统的K-means 算法，且随机和Kaufman 泛研究并得到了很好的应用[2-5]，其中 1967 初始化方法优于其它的初始化方法，因为它年Q. J. Mac 提出的K-means 聚类算法[6]，不依赖于对象的序[11]. 由于其方法简单，已成为当前最流行的聚类 T. Y. Lin 提出了邻域模型的概念[13]，算法之一，特别数据分布呈现类内团聚状，该模型通过空间点的邻域来粒化论域空间，该算法能得到很好的聚类结果. 但 K-means 将邻域理解为基本信息粒子，用来描述空间算法只适用于数值型数据，因此许多研究者中的其他概念. Y. Y. Yao 和W. Z. Wu 分别研对K-means 算法进行了扩展，Z. X. Huang 究了 1-step 和 k-step 邻域信息系统的性质提出了K-modes 和K-prototypes 算法[7]. A. [14，15]. Q. H. Hu 等利用拓扑空间中球形邻 Ahmad 提出了针对混合数据的 K-means 聚域的概念，构造了基于邻域粗糙集模型的特类算法[8]. 但