对K-means算法初始聚类中心选取优化.docVIP

对K-means算法初始聚类中心选取优化.doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
对K-means算法初始聚类中心选取优化

对K-means算法初始聚类中心选取优化   【摘要】针对传统K-means算法对初始聚类中心选取的问题,提出了基于数据样本密度和距离来选取初始聚类中心的改进K-means算法,该算法保证了初始中心点集的第一点为确定的(最大密度点),在基于距离最远的其他中心点搜索过程中,得到的中心点也基本上是确定的,消除了初始中心点选择的随机性,同时保证了获得较高质量的初始中心点。理论分析和实验结果表明:改进的k-means算法是一种有效的入侵检测方法,根据此方法设计的入侵检测系统是有效可行的。   【关键词】K-means算法;初始聚类中心;入侵检测         1.引言   聚类分析是源于许多研究领域,包括数据挖掘,统计学,生物学,以及机器学习[1]。设想要求对一个数据对象的集合进行分析,但与分类不同的是,它要求划分的类是未知的。那么我们就需要聚类分析中的基于多种不同思想的聚类算法,主要有基于划分的算法、基于层次的算法、基于密度的算法、基于网络的算法和基于模型的算法等。这些算法都能取得不错的聚类效果,其中应用最多且算法逻辑思维比较简单的就是基于K-means算法。   1967年,J.B.MacQueen提出了K-means算法,是一种基于质心的经典聚类算法。K-means算法以k为参数,把n个对象分为k个簇,以使簇内具有较高的相似度,而簇间的相似度较低。相似度的计算根据一个簇中对象的平均值(被看作簇的重心)来进行。K-means算法的处理流程如下:首先,随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。   2.K-means算法的改进   无论是原始K-means算法还是使用了聚类准则函数的K-means算法,他们有一个共同的特点:在算法的初始阶段都需要随机的选取k个点作为初始聚类中心点,然后在此基础上进行迭代。   2.1 k-means算法初值选取的现有方法   针对初值选取的问题,目前主要有以下几种选取方法[3][4]:   ①任意的选取k个样本数据作为初始聚类中心。   ②把全部混合样本直观地分成k类,计算各类均值作为初始聚类中心。   ③依据经验选取有代表性的点作为初始聚类中心。   ④通过“密度法”选择代表点作为初始聚类中心。   ⑤由(k-1)类聚类问题解出k类问题的代表点。   ⑥采用遗传算法或者免疫规划方法进行混合聚类。   ⑦进行多次初值选择、聚类,找出一组最优的聚类结果。   ⑧按最大最小距离聚类法中寻找聚类中心的方法确定初始聚类中心。   ⑨聚类中心由原来的点延伸到一条线段,这种选取方法可以避免类间有干扰点的情况。   2.2 新的初始聚类中心选取方法   直观上,类中心应处于所代表类的中心部分,所有属于该类的样本都在其周围某一邻域内。因而在空间上,类中心所处的位置样本点分布密度较大。同时,在样本点密度连续的范围内,应该只具有一个聚类中心,否则就会出现两个类交错在一起的情况。因此,初始类中心的选择应该满足两个条件:   ①类中心所处位置样本点密度较高;   ②类中心之间的距离应尽可能地大。   因此,在初始点的选择上,应考虑两个因素:密度因素和聚类因素。由于类中心所处位置总是在样本比较密集的地方,因而总是存在某些样本距离类中心比较近。如果能够找到这些样本并作为初始类中心,就能避免k-means算法因为初始化不合理而出现的种种问题。   ①样本点密度的度量   对于一个数据集,当样本呈团状分布时,根据一般常识,某个样本点周围其它样本点越多时,则该样本点处的样本分布密度就越大,则该样本点对于分类的影响就越大。因此,每个样本点都存在一个分布密度,对于每个样本点xi,其点密度函数定义如下:    2.1   其中zi是一个关于样本点间距离的参数,其定义如下:   2.2    2.3   Pi表示第i个样本点xi对分类影响的程度,Pi越大,样本点xi周围的点越多,样本点xi的密度越大;反之Pi越小,样本点xi周围的点越少,样本点xi的密度越小。   ②选择样本点作为初始类中心   通过pi的值可以轻易地找到密度较高的样本点,但还要保证所选择的样本点之间的距离尽可能的大,否则选择的类中心必然会聚集在样本密度最高的区域内。因此,除了第一个类中心可以根据密度的大小来选择外,选择其它类中心时还需要考虑距离的因素。本文使用密度和距离的乘积作为选择的度量。密度和距离的单位不同,直接相乘不具有可比性,因此需要进行归一化处理。对于给定的样本xi,将其到样本点xj(=1,2,…,N)的距离按式2.4进行变换:   2.4  

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档