聚類方法及原理介绍(文档).docVIP

下载本文档

6
0
约 5页
2017-01-16 发布于重庆
举报
版权申诉

聚類方法及原理介绍(文档).doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚類方法及原理介绍(文档)

将物理或抽象对象的集合分组成为有类似的对象组成的多个簇的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其它簇中的对象相异。在许多应用中，可以将一个簇中的数据对象作为一个整体来对待。　　目前在文献中存在大量的聚类算法。算法的选择取决于数据的类型、聚类的目的和应用。如果聚类分析备用作描述或探查的工具，可以对同样的数据尝试多种算法，以发现数据可能揭示的结果。　　大体上，主要的聚类技术可以划分为如下几类：　1.划分方法　　给定一个个对象或元组的数据库，一个划分方法构建数据的k个划分，每个划分表示一个聚簇，并且k　　（i）每个组至少包含一个对象；　　（ii）每个对象必须属于且只属于一个组。　　给定要构建的划分数目k，划分方法首先创建一个初始划分。然后采用一种迭代的重定位技术，尝试通过对象在划分间移动来改进划分。一个好的划分的一般准则是：在同一类中的对象之间尽可能“接近”或相关，而不同类中的对象之间尽可能“远离”或不同。还有许多其它划分质量评判准则。　　为了达到全局最优，基于划分的聚类会要求穷举三所有可能的划分。实际上，绝大多数应用采用了以下两个比较流行的启发式方法：　　（1）聚于质心的技术: k-平均方法　　k-平均算法以k为参数，把n个对象分为k个簇，以使簇内具有较高的相似度，而簇间的相似度较低。相似度的计算根据一个簇中对象的平均值（被看作簇的重心）来进行。　　k-平均算法的处理流程如下。首先，随机地选择k个对象，每个对象初始地代表一个簇的平均值或中心。对剩余的每个对象，根据其与各个簇中心的距离，将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。通常采用平方误差准则，其定义如下：（2-1）　这里的E是数据库中所有对象的平方误差的总和，p是空间的点，表示给定的数据对象，mi是簇Ci的平均值（p 和mi都是多维的）。这个准则是使图生成的结果簇尽可能的紧凑和独立。　　例1 假设有一个分布在空间中的对象集合，如图2－1所示。给定k=3，即要求将这些对象聚类为三个簇。根据k-平均算法，我们任意选择三个对象作为初始簇的中心，簇中心在图中用“＋”来标示。根据与簇中心的距离，每个对象分配给离其最近的一个簇。这样分布形成如图a中所绘的图形。　　这样的分组会改变聚类的中心，也就是说，每个聚类的平均值会根据类中的对象重新计算。依据这些新的聚类中心，对象被重新分配到各个类中。这样重新分配形成了图b中描绘的轮廓。　　以上的过程重复产生了图c的情况。最后，当没有对象重新分配发生时，处理过程结束，聚类的结果被返回。图2-1　基于K-means方法的一组对象的聚类　　这个算法尝试找出是平方误差函数值最小的K个划分，当结果簇是密集的，而簇与簇之间区别明显时，它的效果较好。对处理大数据集，该算法是相对可伸缩的和高效率的，因为它的复杂程度是 O（nkt）。其中，n是所有对象的数目，k是簇的数目，t是迭代的数目。通常的，k但是，k-平均方法只有在簇的平均值被定义的情况下使用。这可能不适应某些应用。例如涉及有分类属性的数据。要求用户必须事先给出k（要生成的簇的数目）可能算是该方法的一个缺点。K-平均方法不适合于发现非凸面形状的簇，或者大小差别很大的簇，并且，它对于“噪声”和孤立点数据很敏感，少量的该类数据能够对平均值产生很大影响。　　（2）基于有代表性的对象的技术 k-中心点方法　　采用簇中位置最中心的对象，作为参照点即中心点，这样划分依然是基于最小化所有对象与参照点之间的相异度之和的原则来执行的。这是k-中心点的基础。它的基本策略是：首先为每个簇随意选择一个代表对象；剩余对象根据与代表对象的距离分配给最近的一个簇。然后反复用非代表对象代替代表对象，以改进聚类的质量。聚类结果的质量用一个代价函数来估算，该函数度量对象与参照对象之间的平均相异度。为了判定一个非代表对象是否是当前一个代表对象的好的替代，对于每一个非中心点对象p，下面的四种情况被考虑：　第一种情况：p当前隶属于中心点Oj。如果Oj被Orandom所代替作为中心点，且p离一个Oi最近，i≠j，那么p被重新分配给Oi.第二种情况：p当前隶属于中心点Oj.如果Oj被Orandom代替作为中心点，且p离Orandom最近，那么p被重新分配给Orandom。　第三种情况：p当前隶属于中心点Oi，i≠j。如果Oj 被Orandom代替作为一个中心点，而p依然离Oi最近，那么对象的隶属不发生变化。　第四种情况： p当前隶属于中心点Oi，i≠j。如果Oj 被Orandom代替作为一个中心点，且p离Orandom最近，那么p被重新分配给Orandom。　　图2－2描述了上述四种情况。每当重新分配发生时，平