几个初始聚类中心选取算法比较研究.docVIP

下载本文档

6
0
约3.84千字
约 9页
2018-07-04 发布于福建
举报
版权申诉

几个初始聚类中心选取算法比较研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

几个初始聚类中心选取算法比较研究

几个初始聚类中心选取算法比较研究　　【摘要】传统的k均值算法对初始聚类中心敏感。在实际应用中，找到一组初始中心点，从而获得一个较好的聚类效果并消除聚类结果的波动性对k均值算法具有重要意义。本文对文献提出的基于Huffman树构造的思想选取初始聚类中心、基于均值-标准差选取初始聚类中心、基于密度选取初始聚类中心、采用最大距离积法选取初始聚类中心等4个算法从算法思想、关键技术等方面进行了比较研究。　　【关键词】初始聚类；算法　　1.引言　　聚类分析是数据挖掘的功能之一，是在训练数据不提供类标号的情况下按照最大化类内对象间的相似性、最小化不同类对象之间的相似性的原则聚类和分组数据。通过自动聚类能够识别对象空间中稠密和稀疏区域，从而发现全局分布模式和数据属性之间有趣的相关性。　　目前，存在着大量的聚类算法，K均值算法是应用广泛的聚类算法之一。1967年，MacQueen首次提出了K均值聚类算法，该算法的核心思想是找出k个聚类中心使得每一个数据点xi和与其最近的聚类中心cv的平方距离和被最小化。首先，随机地选择k个对象，每个对象代表一个簇的聚类中心。然后，对剩余的每个对象，根据其与各个聚类中心的距离，将它指派到最相似的簇；计算每个簇的均值，将它作为新的聚类中心。不断重复这个过程，直到准则函数收敛。准则函数采用平方误差准则，定义如（1.1）所示：　　（1.1）　　K均值算法具有思想简单、时间复杂度接近线性、对大规模数据的挖掘具有可伸缩性等优点，但是也存在对聚类初始值的依赖、聚类个数K 需要预先给定、准则函数易陷入局部极小、对离群点敏感等缺点。K均值算法对聚类初始值的依赖表现在从不同的初始聚类中心出发，得到的聚类结果也不一样，并且一般不会得到全局最优解。在实际应用中，由于初始输入不同而造成结果的波动是不能接受的。因此怎样找到一组初始中心点，从而获得一个较好的聚类效果并消除聚类结果的波动性对k-means算法具有重要意义。本文分析比较了文献提出的几个初始聚类中心选取算法，这几个算法分别是：基于Huffman树构造的思想选取初始聚类中心、基于均值-标准差选取初始聚类中心、基于密度选取初始聚类中心、采用最大距离积法选取初始聚类中心等4个算法。　　2.基于Huffman树构造的思想选取初始聚类中心算法　　基于Huffman树的思想的K-均值聚类算法流程大体分三步：　　1）根据Huffman树的思想。基于数据相异度，将数据样本构造成一棵树。根据算法的实际需要，在构造树的时候做了改变：对于构造树，不用左右子树根结点权值之和作为新的二叉树根结点，而是采用左右结点的算法平均值作为新的二叉树根结点的值。　　2）对于构造出来的Huffman树，按构造结点的逆序找到k-1个结点，根据图论理论可知，去掉这k-1个结点可将树分为k个子树，这k个子树的平均值即初始的k个聚类中心点。　　3）对于已得的k个初始聚类中心，按照K均值聚类算法进行聚类。　　算法中的数据点之间的相异度度量采用欧式距离。用一个例子说明构造树并得到初始中心的过程，假设有一组数据（x1，x2，x3，x4，x5，x6）。它们对应的权值为（12，34，56，78，8，89），需要将这6个点聚成3类。过程如下：　　1）首先根据欧式距离计算6个对象之间的相异度，得到相异度矩阵见式（2.1），　　（2.1）　　2）找到矩阵中最小值是4，也就是数据点x1（12）和x5（8）的相异度，计算这两点的算术平均值为10，将此平均值记为x11并且作为x1和x2中间结点加入树见图2.1（b）。在数据集中删除x1和x5，并将x11加入到数据集时得到新的数据集（x11，x2，x3，x4，x6）对应的值为（10，34，56，78，98），计算它们的相异度矩阵见式（2.2）　　（2.2）　　3）重复第（2）步直到数据集中只剩下一个对象。剩下的迭代过程相异度矩阵变化如图2.1，树的构造过程示意图见图2.2 　　4）将数据集聚成3类，即k=3，在已构造出来的树（图2.2（c））中按结点构造的逆序找出k-1个点，即57.75和27.5，去掉这两点即可将构造树分为3个子树（x1，x5）、（x2，x3）、（x4，x6），对应树中的结点为（8，12）、（34，56）、（78，98）。三个子树的平均值10，45，88即为三个簇的初始中心点。　　3. 基于均值-标准差选取初始聚类中心算法　　由K均值算法可知，如果所选的初始聚类中心取在几个密集区域的中心，其周围的点越容易分布到最近的点，聚类收敛越快，所需要迭代的次数越少。其中涉及最优初始聚类中心点的选取。　　若要分析所有数据的分布情况计算其分布密度，那是非常复杂的事。根据随机函数的分布知识，聚类的数据应主要分布在所有数据的均值附近。标准差是评价数据