对K_means算法初始聚类中心选取的优化.doc

下载文档 降价啦

25
0
约8.84千字
约 5页
2018-04-25 发布于江西
举报
版权申诉
保障服务

对K_means算法初始聚类中心选取的优化.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

对K_means算法初始聚类中心选取的优化

对K-means算法初始聚类中心选取的优化中南林业科技大学计算机与信息工程学院薛京花刘震宇崔适时【摘要】针对传统K-means算法对初始聚类中心选取的问题，提出了基于数据样本密度和距离来选取初始聚类中心的改进 K-means算法，该算法保证了初始中心点集的第一点为确定的（最大密度点），在基于距离最远的其他中心点搜索过程中，得到的中心点也基本上是确定的，消除了初始中心点选择的随机性，同时保证了获得较高质量的初始中心点。理论分析和实验结果表明：改进的k-means算法是一种有效的入侵检测方法，根据此方法设计的入侵检测系统是有效可行的。【关键词】K-means算法；初始聚类中心；入侵检测类间有干扰点的情况。 2.2 新的初始聚类中心选取方法直观上，类中心应处于所代表类的中心部分，所有属于该类的样本都在其周围某一邻域内。因而在空间上，类中心所处的位置样本点分布密度较大。同时，在样本点密度连续的范围内，应该只具有一个聚类中心，否则就会出现两个类交错在一起的情况。因此，初始类中心的选择应该满足两个条件： ①类中心所处位置样本点密度较高； ②类中心之间的距离应尽可能地大。因此，在初始点的选择上，应考虑两个因素：密度因素和聚类因素。由于类中心所处位置总是在样本比较密集的地方，因而总是存在某些样本距离类中心比较近。如果能够找到这些样本并作为初始类中心，就能避免k-means算法因为初始化不合理而出现的种种问题。 ①样本点密度的度量对于一个数据集，当样本呈团状分布时，根据一般常识，某个样本点周围其它样本点越多时，则该样本点处的样本分布密度就越大，则该样本点对于分类的影响就越 1.引言聚类分析是源于许多研究领域，包括数据挖掘，统计学，生物学，以及机器学习[1]。设想要求对一个数据对象的集合进行分析，但与分类不同的是，它要求划分的类是未知的。那么我们就需要聚类分析中的基于多种不同思想的聚类算法，主要有基于划分的算法、基于层次的算法、基于密度的算法、基于网络的算法和基于模型的算法等。这些算法都能取得不错的聚类效果，其中应用最多且算法逻辑思维比较简单的就是基于K-means算法。 1967年，J.B.MacQueen提出了 K-means算法，是一种基于质心的经典聚类算法。K-means算法以k为参数，把n个对象分为k个簇，以使簇内具有较高的相似度，而簇间的相似度较低。相似度的计算根据一个簇中对象的平均值（被看作簇的重心）来进行。K-means算法的处理流程如下：首先，随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象，根据其与各个簇中心的距离，将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。 2.K-means算法的改进无论是原始K-means算法还是使用了聚类准则函数的K-means算法，他们有一个共同的特点：在算法的初始阶段都需要随机的选取k个点作为初始聚类中心点，然后在此基础上进行迭代。 2.1 k-means算法初值选取的现有方法针对初值选取的问题，目前主要有以下几种选取方法[3][4]： ①任意的选取k个样本数据作为初始聚类中心。 ②把全部混合样本直观地分成k 类，计算各类均值作为初始聚类中心。 ③依据经验选取有代表性的点作为初始聚类中心。 ④通过“密度法”选择代表点作为初始聚类中心。 ⑤由(k-1)类聚类问题解出k类问题的代表点。 ⑥采用遗传算法或者免疫规划方法进行混合聚类。 ⑦进行多次初值选择、聚类，找出一组最优的聚类结果。 ⑧按最大最小距离聚类法中寻找聚类中心的方法确定初始聚类中心。 ⑨聚类中心由原来的点延伸到一条线段，这种选取方法可以避免大。因此，每个样本点都存在一个分布密度，对于每个样本点xi，其点密度函数定义如下： 2.5 其中（n1，…，nk）是已确定k(k ≥1)个初类中心在样本中的序号。 ③聚类中心初始化算法执行流程结合以上两个小节的讨论结果，得到一种新的聚类中心选取算法，算法流程描述如下：输入：待处理数据集wi，聚类个数K 输出：初始中心点集M 步骤：步骤1：根据式㈠计算每一个样本的密度；步骤2：初始中心点集M初始化为空集，即M=｛｝，初始累加参数wi为 0，即：wi=0，（i=1，2，…，N）；步骤3：令j=1，选择密度最大的样本点m1（第v1个点）作为第一个初始中心点，即： Pv1=Max（Pi），（i=1，2，…， N）； M=M∪｛m1｝；步骤4：按㈣式计算已选初始中心点mj到所有样本的归一化距离，累加wi： wi=wi+Pi ，（i=1，2，…，N）；步骤5