第10章描述建模：聚类分解.pptVIP

下载本文档

4
0
约6.21千字
约 55页
2016-08-28 发布于湖北
举报
版权申诉

第10章描述建模：聚类分解.ppt

1、本文档共55页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

五邑大学信息学院　　何国辉 1. k-Means方法（续） 4)根据距离重心M1、M2的最小距离，再分配所有的样本： d(M1,x1) = (1.662+1.342)1/2 = 2.14 d(M2,x1) = 3.4 则x1∈C1 d(M1,x2) = d(M2,x2) = 则x2∈… d(M1,x3) = d(M2,x3) = 则x3∈… d(M1,x4) = d(M2,x4) = 则x4∈… d(M1,x5) = d(M2,x5) = 则x5∈C1 1. k-Means方法（续） 5）得到新类C1和C2，并计算新的重心M1、M2 6）计算新的类内方差和总体平方误差： 7）如果总体平方误差在规定范围，结束，否则再次迭代，直到满足要求。 1. k-Means方法（续） k-Means方法的优点：对于处理大数据量具有可扩充性和高效率。算法的复杂度是O（tkn），其中n是对象的个数，k是Cluster的个数，t是循环的次数，通常k，tn。可以实现局部最优化。 1. k-Means方法（续） k-Means方法的缺点：族的个数k必须事先确定。在有些应用中，事先确定族的个数非常困难。无法找出具有特殊形状的族。必须给出k的初始中心点，如果初始中心点选择不好，最后形成的聚类结果明显很差。求中心点时，需要计算算术平均。无法适应具有分类属性的数据。 1. k-Means方法（续） k-Means方法的变种 k-Modes方法 k-Prototypes算法 ...... 2. k-Medoids方法 k-Medoids方法是在k-Means方法的而基础上提出的。主要思想是：为每个族找到一个具有代表性的对象，该对象被称为Medoid，是最靠近该族中心点的对象。剩余的对象根据其与代表对象的距离分配给最近的一个簇。然后反复用非代表对象代替代表对象，以提高聚类的质量。一旦k个Medoids确定下来，则每个对象就属于距它最近的Medoid所属族。 2. k-Medoids方法（续） k-Medoids方法的主要优点：可以很好地处理噪音数据。这种算法对于脏数据和异常数据不敏感，但计算量显然要比K均值要大，一般只适合小数据量。算法的结果与数据的输入顺序无关。 2. k-Medoids方法（续） PAM（Partitioning Around Medoids，围绕中心点的分割算法）方法是较早提出的一种k-Medoids方法。 2. k-Medoids方法（续）主要思想：任意选择k个对象作为k个Medoids（中心点）；计算每个对象好而每个Medoids之间的距离；把每个对象分配给距它最近的Medoids所属的族；随机选取一个非Medoids对象Orandom，计算用Orandom替换某个族的Medoids Oj所能带来的好处（用?E表示评分函数）。如果?E0，则用Orandom替换Oj。重复（2），（3），（4）步，直到算法收敛。 10.2.2 基于密度的聚类方法划分聚类方法是基于数据对象间的距离实现的，该类方法具有三个先天的缺陷：必须事先输入一个参数k；只能适应于球形的族；聚类的结果与初始中心点的选择有很大关系。为了能够找出任意形状的族，人们提出了基于密度的聚类方法。该类方法认为：族是数据空间中数据比较密集的区域。 10.2.2 基于密度的聚类方法（续）基于密度的聚类方法基本思想是：只要临近区域的密度（对象或数据点的数目）超过某个值，就继续聚类。也就是说，对给定类中的每个数据点，在一个给定范围的区域中必须至少包含某个数目点。这样的方法可以用来过滤“噪声”孤立点数据，发现任意形状的簇。 10.2.2 基于密度的聚类方法（续）是一种基于距离的划分方法。主要有两类：基于连通性的算法和基于密度函数的算法。基于连通性的算法有：DBSCAN、GDBSCAN、OPTICS、DBCLASD等。基于密度函数的算法有：DBNCLUE等。 10.2.3 基于层次的聚类方法基于层次的聚类方法（hierarchical method）的基本思想是：对给定数据对象集合进行层次的分解。根据层次的分解如何形成，层次的方法可以分为凝聚的和分裂的。该方法按群组的嵌套顺序组织数据，以树状图或树形结构来表示。 10.2.3 基于层次的聚类方法（续） 10.2.3 基于层次的聚类方法（续）凝聚的方法：又称为自底向上的方法，一开始将每个对象作为单独的一个组，然后根据一些规则相继地合并相近的对象或者组，将它们聚合成越来越大的类，直到所有的组合并为一个，或者达到一个预先设定的终止条件。例如，如果类C1和类C2之间的距离小于预定的最小