对K_means算法初始聚类中心选取的优化.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
对K_means算法初始聚类中心选取的优化

对K-means算法初始聚类中心选取的优化 中南林业科技大学计算机与信息工程学院 薛京花 刘震宇 崔适时 【摘要】针对传统K-means算法对初始聚类中心选取的问题,提出了基于数据样本密度和距离来选取初始聚类中心的改进 K-means算法,该算法保证了初始中心点集的第一点为确定的(最大密度点),在基于距离最远的其他中心点搜索过程中,得 到的中心点也基本上是确定的,消除了初始中心点选择的随机性,同时保证了获得较高质量的初始中心点。理论分析和实验结 果表明:改进的k-means算法是一种有效的入侵检测方法,根据此方法设计的入侵检测系统是有效可行的。 【关键词】K-means算法;初始聚类中心;入侵检测 类间有干扰点的情况。 2.2 新的初始聚类中心选取方法 直观上,类中心应处于所代表 类的中心部分,所有属于该类的样 本都在其周围某一邻域内。因而在 空间上,类中心所处的位置样本点 分布密度较大。同时,在样本点密 度连续的范围内,应该只具有一个 聚类中心,否则就会出现两个类交 错在一起的情况。因此,初始类中 心的选择应该满足两个条件: ①类中心所处位置样本点密度 较高; ②类中心之间的距离应尽可能 地大。 因此,在初始点的选择上,应 考虑两个因素:密度因素和聚类因 素。由于类中心所处位置总是在样 本比较密集的地方,因而总是存在 某些样本距离类中心比较近。如果 能够找到这些样本并作为初始类中 心,就能避免k-means算法因为初始 化不合理而出现的种种问题。 ①样本点密度的度量 对于一个数据集,当样本呈团 状分布时,根据一般常识,某个样 本点周围其它样本点越多时,则该 样本点处的样本分布密度就越大, 则该样本点对于分类的影响就越 1.引言 聚类分析是源于许多研究领域, 包括数据挖掘,统计学,生物学, 以及机器学习[1]。设想要求对一个 数据对象的集合进行分析,但与分 类不同的是,它要求划分的类是未 知的。那么我们就需要聚类分析中 的基于多种不同思想的聚类算法, 主要有基于划分的算法、基于层次 的算法、基于密度的算法、基于网 络的算法和基于模型的算法等。这 些算法都能取得不错的聚类效果, 其中应用最多且算法逻辑思维比较 简单的就是基于K-means算法。 1967年,J.B.MacQueen提出了 K-means算法,是一种基于质心的经 典聚类算法。K-means算法以k为参 数,把n个对象分为k个簇,以使簇 内具有较高的相似度,而簇间的相 似度较低。相似度的计算根据一个 簇中对象的平均值(被看作簇的重 心)来进行。K-means算法的处理流 程如下:首先,随机地选择k个对 象,每个对象初始地代表了一个簇 的平均值或中心。对剩余的每个对 象,根据其与各个簇中心的距离, 将它赋给最近的簇。然后重新计算 每个簇的平均值。这个过程不断重 复,直到准则函数收敛。 2.K-means算法的改进 无论是原始K-means算法还是使 用了聚类准则函数的K-means算法, 他们有一个共同的特点:在算法的 初始阶段都需要随机的选取k个点作 为初始聚类中心点,然后在此基础 上进行迭代。 2.1 k-means算法初值选取的现 有方法 针对初值选取的问题,目前主 要有以下几种选取方法[3][4]: ①任意的选取k个样本数据作为 初始聚类中心。 ②把全部混合样本直观地分成k 类,计算各类均值作为初始聚类中心。 ③依据经验选取有代表性的点 作为初始聚类中心。 ④通过“密度法”选择代表点 作为初始聚类中心。 ⑤由(k-1)类聚类问题解出k类 问题的代表点。 ⑥采用遗传算法或者免疫规划 方法进行混合聚类。 ⑦进行多次初值选择、聚类, 找出一组最优的聚类结果。 ⑧按最大最小距离聚类法中寻找 聚类中心的方法确定初始聚类中心。 ⑨聚类中心由原来的点延伸到 一条线段,这种选取方法可以避免 大。因此,每个样本点都存在一个 分布密度,对于每个样本点xi,其 点密度函数定义如下: 2.5 其中(n1,…,nk)是已确定k(k ≥1)个初类中心在样本中的序号。 ③聚类中心初始化算法执行流程 结合以上两个小节的讨论结果, 得到一种新的聚类中心选取算法, 算法流程描述如下: 输入:待处理数据集wi,聚类 个数K 输出:初始中心点集M 步骤: 步骤1:根据式㈠计算每一个样 本的密度; 步骤2:初始中心点集M初始化为 空集,即M={},初始累加参数wi为 0,即:wi=0,(i=1,2,…,N); 步骤3:令j=1,选择密度最大 的样本点m1(第v1个点)作为第一个 初始中心点,即: Pv1=Max(Pi),(i=1,2,…, N); M=M∪{m1}; 步骤4:按㈣式计算已选初始中 心点mj到所有样本的归一化距离 , 累加wi: wi=wi+Pi ,(i=1,2,…,N); 步骤5

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档