K-means聚类分析.pdf

下载文档

66
0
约2.97千字
约 3页
2017-09-05 发布于浙江
举报
版权申诉
保障服务

K-means聚类分析.pdf

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

K-means聚类分析

K‐means 聚类分析主要的聚类算法可以分为以下几种：划分聚类、层次聚类、密度型聚类、网格型聚类和基于模型的聚类。划分聚类算法把数据点集分为 k 个划分，每个划分作为一个聚类。它一般从一个初始划分开始，然后通过重复的控制策略，使某个准则函数最优化，而每个聚类由其质心来代表(k‐means 算法)，或者由该聚类中最靠近中心的一个对象来代表(k‐medoids 算法)。划分聚类算法收敛速度快，缺点在于它倾向于识别凸形分布大小相近、密度相近的聚类，不能发现分布形状比较复杂的聚类，它要求类别数目k 可以合理地估计，并且初始中心的选择和噪声会对聚类结果产生很大影响。主要的划分聚类算法有 k‐means，EM，k‐medoids，CLARA，CLARANS 等。下面主要介绍 K‐means 聚类方法。 k‐means 算法首先随机选择 k 个对象，每个对象代表一个聚类的质心。对于其余的每一个对象，根据该对象与各聚类质心之间的距离，把它分配到与之最相似的聚类中。然后，计算每个聚类的新质心。重复上述过程，直到准则函数会聚。通常采用的准则函数是平方误差准则函数(squared‐error criterion)，即 k 2 E   p m i 1 p Ci E 是一个数据集中所有对象的误差平方和，P 是一个对象，mi 是聚类 Ci 的质心，即 q qC i m i C i k‐means 聚类算法的具体步骤如下： ①从数据集中选择 k 个质心 C1，C2，…，Ck 作为初始的聚类中心； ②把每个对象分配到与之最相似的聚合。每个聚合用其中所有对象的均值来代表，“最相似”就是指距离最小。对于每个点Vi ，找出一个质心 Cj，使它与其间的距离 d(Vi,Cj)最小，并把 Vi 分配到第 j 组； ③把所有的点都分配到相应的组之后重新计算每个组的质心 Cj； ④循环执行第②步和第③步，直到数据的划分不再发生变化。该算法具有很好的可伸缩性，其计算复杂度为 O(nkt)，其中，t 是循环的次数。 K‐means 聚类算法的不足之处在于它要多次扫描数据库，此外，它只能找出球形的类，而不能发现任意形状的类。还有，初始质心的选择对聚类结果有较大的影响，该算法对噪声很敏感。问题探究近年来，数据挖掘成为越来越热的一个研究方向，而聚类(clustering)作为数据挖掘的主要方法之一，也越来越引起人们的关注。所谓聚类，就是把大量的 d 维数据对象(n 个)聚集成 k 个聚类(kn)，使同一聚类内对象的相似性尽可能最大，而不同聚类内对象的相似性尽量达到最小。也就是说，形成聚类之后，同一个聚类内对象具有很高的相似性，而与不属于该聚类的对象有迥然的差异(即不相似)。聚类与分类相比，分类算法分析的是类别已知的数据集，而聚类算法分析的是类别未知的数据。聚类的输入是一组未分类的记录，而且事先也不知道要分成几类，它通过分析数据，根据一定的分类准则，合理划分记录集合，从而确定每个记录所属的类别。不同的聚类算法中，用于描述相似性的函数也有所不同，有的采用欧氏距离或马氏距离，有的采用向量夹角的余弦，也有的采用其他的度量方法。当预先不知道类型数目，或者用参数估计和非参数估计难以分辨不同类型的类概率密度函数时，就需要采用聚类分析。有些聚类分析算法可以自动地确定类型的数目 k，而不必以预知 k 为前提条件，也可以给定 k 作为算法的终止条件若没有给定 k，那么如何在聚类过程中自动地确定 k，这是聚类分析中的一个关键问题。确定 k 值的方法很多，具体哪种较好还有待探究。基于自组织特征神经网络（SOM ）的聚类分析是其中的一种解决方案。自组织特征神经网络简介在人类的神经系统及脑的研究中，人们发现:人脑的某些区域对某种信息或感觉敏感，如人脑的某一部分进行机械记忆特别有效;而