10聚类技术总结.pptx

下载文档 降价啦

7
0
约3.46千字
约 59页
2016-08-13 发布于湖北
举报
版权申诉
保障服务

10聚类技术总结.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

聚类分析 2015.12.2 主要内容聚类分析几种相似性度量方式划分方法 K-均值 K-中心点层次方法什么是聚类？聚类(clustering)：是把一个数据对象划分成子集的过程。其中每个子集是一个簇(cluster) 使得簇中的对象尽可能相似，簇间对象尽可能不相似是无监督学习，因为没有提供类标号信息基本聚类方法：划分方法(partitioning method) 层次方法(hierarchical method) 基于密度的方法(density-based method) 基于网格的方法(grid-based method) 数据对象之间的相异度：距离度量相似系数关联性度量距离度量 1.绝对值距离(Manhattan distance 或 City Block distance): 距离度量 2.欧氏距离(Euclidean distance) 距离度量 3.闵可夫斯基距离(Minkowski Distance): P=1时，曼哈顿距离 P=2时，欧氏距离 P= 时，切比雪夫距离距离度量 4.马氏距离(Mahalanobis distance): 相似性度量 1.相似系数取值范围[-1,1] 越大越好相似性度量 2.余弦相似度：取值范围[-1,1] 越大越好关联性度量关联性度量误差平方和(sum of the squared error,SSE) 划分方法 K-均值：一种基于形心的技术 K-均值步骤 K-均值：一种基于形心的技术均值——K-均值算法把簇的形心定义为簇内点的均值。 K-means优点与缺点优点算法简单适用于球形簇缺点事先确定簇数K 不能处理非球形簇、不同尺寸和不同密度的簇对离群点或噪声敏感 K-中心点(K-medoids) 如何修改K-means算法，降低它对离群点的敏感性？不使用均值，用实际对象代表簇划分方法基于最小化所有对象p与其对应的代表对象之间的相异度之和的原则来进行划分使用绝对误差标准(absolute-error criterion)：围绕中心点划分PAM PAM 大型应用聚类CLARA CLARA的主要思想是：不考虑整个数据集合，而是选择实际数据的一小部分作为数据的代表。然后用PAM方法从样本中选择中心点。如果样本是以非常随机的方式选取的，那么它应当接近代表原来的数据集。从中选出代表对象（中心点）很可能和从整个数据集合中选出的代表对象相似。CLARA抽取数据集合的多个样本，对每个样本应用PAM算法，并返回最好的聚类结果作为输出。? 层次划分层次聚类方法(hierarchical clustering method):将数据对象组成层次结构或簇的“树” 凝聚的与分裂的层次聚类 BIRCH Chameleon 概率层次聚类值得注意的是，层次聚类方法是不可逆的，也就是说，当通过凝聚式的方法将两组合并后，无法通过分裂式的办法再将其分离到之前的状态，反之亦然。凝聚的与分裂的层次聚类凝聚的层次聚类：自底向上层次分解开始时把每个对象作为一个单独的簇，迭代的合并，形成更大的簇，直到满足某个终止条件分裂的层次聚类：自顶向下层次分解将所有对象置于同一个簇中，然后逐次将簇分裂为更小的簇，直到满足某个终止条件分裂方法一般不对已经做出的划分决策回溯。树状图(dendrogram)的树形结构来表示层次聚类的过程。基于凝聚层次聚类方法算法方法的距离度量最近邻聚类算法 or 单连接单连接优势：局限性：最远邻聚类算法 or 全连接全连接优势：局限性： BIRCH：使用聚类特征树的多阶段聚类 BIRCH使用聚类特征来概括一个簇，使用聚类特征树(CF-树)来表示聚类的层次结构。算法起初，我们扫描数据库，拿到第一个data point instance--（1,2,3）,我们创建一个空的Leaf和MinCluster，把点（1,2,3）的id值放入Mincluster，更新MinCluster的CF值为（1,（1,2,3），（1,4,9）），把MinCluster作为Leaf的一个孩子，更新Leaf的CF值为（1,（1,2,3），（1,4,9））。实际上只要往树中放入一个CF（这里我们用CF作为Nonleaf、Leaf、MinCluster的统称），就要更新从Root到该叶子节点的路径上所有节点的CF值。当又有一个数据点要插入树中时，把这个点封装为一个MinCluster（这样它就有了一个CF值），把新到的数据点记为CF_new，我们拿到树的根节点的各个孩子节点的CF值，根据D2来找到CF_new与哪个节点最近，就把CF_new加入那个子树上面去。这是一个递归的过程。递归的终止点是要把CF_new加入到一个MinCl