Clementine 第七讲.ppt

下载文档 降价啦

7
0
约3.87千字
约 29页
2017-08-16 发布于湖北
举报
版权申诉
保障服务

Clementine 第七讲.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Clementine 第七讲

基于聚类分析的离群点探索说明： Anomaly节点总能找到离群点，只能视为“疑似异常点” 无指导的学习方法，可首先找到与输出变量相关的几个重要输入变量，然后再利用Anomaly节点诊断异常聚类分析主要内容聚类分析方法概述两步聚类方法基于聚类分析的离群点探索聚类分析方法概述聚类分析是对数据进行描述建模型的方法，目的探索数据中是否存在“自然的子类” 聚类算法的种类从聚类结果角度划分从聚类变量类型角度划分从聚类原理角度划分聚类算法种类从聚类结果角度划分：覆盖聚类与非覆盖聚类：每个数据点都至少属于一个类，为覆盖聚类，否则为非覆盖聚类层次聚类和非层次聚类：存在两个类，其中一个类是另一个类的子集，为层次聚类，否则为非层次聚类确定聚类和模糊聚类：任意两个类的交集为空，一个数据点最多只属于一个类，为确定聚类（或硬聚类）。否则，如果至少一个数据点属于一个以上的类，为模糊聚类聚类算法种类从聚类变量类型角度划分数值型聚类算法、分类型聚类算法、混合型聚类算法从聚类的原理角度划分划分聚类（Partitional clustering）层次聚类（Hierarchical clustering）基于密度的聚类（Density-based clustering）网格聚类（Rid clustering）两步聚类算法两步聚类：Chiu，2001年在BIRCH（Balanced Iterative Reducing and Clustering using Hierarchies）算法基础上提出的一种改进算法特点：算法尤其适合于大型数据集的聚类研究通过两步实现数据聚类同时处理数值型聚类变量和分类型聚类变量根据一定准则确定聚类数目诊断样本中的离群点和噪声数据两步聚类算法第一步，预聚类采用“贯序”方式将样本粗略划分成L个子类预聚类过程聚类数目不断增加第二步，聚类在预聚类的基础上，再根据“亲疏程度”决定哪些子类可以合并，或者哪些子类可以在拆分为更小的子类，最终形成L’类聚类变量均为数值型（标准化后），采用欧氏距离，否则，采用对数似然距离通过对数似然函数的形式描述全部样本的聚类分布特征:混合分布,总体分布描述为有限个子分布的加权线性组合如果数据矩阵的各行独立，则： “亲疏程度”的测度 “亲疏程度”的测度 K个聚类变量x1，x2，…xk，KA个数值型聚类变量和KB个分类型聚类变量。对数似然距离定义为：反应了类内部变量取值的总体差异性（定距变量以方差测度，分类型变量以熵测度）合并之前的对数似然合并之后的对数似然两步聚类算法：预聚类算法是Zhang等，1996，BIRCH算法的改进算法，CF树（Clustering Feature Tree） CF树是一种描述树结构的数据存储方式叶结点为子类，具有同一父结点的若干子类合并为一个大类形成树的中间结点。若干大类合并成更大的类形成更高层的中间结点，直到根结点表示所有数据形成一类 CF树是一种数据压缩存储方式(充分统计量) 数值型变量值的总和及平方和两步聚类算法：预聚类预聚类过程:建立CF树视所有数据为大类，汇总统计量存在根结点中读入一个样本点，从CF树的根结点开始，利用结点的汇总统计量，计算数据与中间结点的对数似然距离。沿对数似然距离最小的中间结点依次向下选择路径直到叶结点计算与子树中所有叶结点（子类）的对数似然距离，找到距离最近的叶结点两步聚类算法：预聚类预聚类过程如果最近距离小于一定阈值，则该数据被相应的叶结点“吸收”；否则，该数据将“开辟”一个新的叶结点。重新计算叶结点和相应所有父结点的汇总统计量叶结点足够大时应再分裂成两个叶结点叶结点个数达到允许的最大聚类数目时，应适当增加阈值重新建树，以得到一棵较小的CF树重复上述过程，直到所有数据均被分配到某个叶结点（子类）为止两步聚类算法：预聚类离群点的甄别离群点，即那些合并到任何一个类中都不恰当的数据点两步聚类的处理策略：找到包含样本量较少的“小”叶结点，如果其中的样本量仅是“最大”叶结点所含样本量的很小比例，则视这些叶结点中的数据点为离群点(Clementine默认为25%) 两步聚类算法：聚类聚类过程：分析对象是预聚类所形成的稠密区域方法：层次聚类法逐步将较多的小类合并为较少的大类，再将较少的大类合并成更少的更大类，最终将更大类的合并成一个大类，是一个类不断“凝聚”的过程问题：第一，内存容量问题第二，怎样的聚类数目是合适的问题聚类数目的确定第一阶段：依据BIC，确定粗略的聚类数依据类内部差异性并兼顾模型复杂度所有类合并成一个大类，BIC的第一项最大，第二项最小。当聚类数目增加时，第一项逐渐减少，