- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Clementine 第七讲
基于聚类分析的离群点探索 说明: Anomaly节点总能找到离群点,只能视为“疑似异常点” 无指导的学习方法,可首先找到与输出变量相关的几个重要输入变量,然后再利用Anomaly节点诊断异常 聚类分析 主要内容 聚类分析方法概述 两步聚类方法 基于聚类分析的离群点探索 聚类分析方法概述 聚类分析是对数据进行描述建模型的方法,目的探索数据中是否存在“自然的子类” 聚类算法的种类 从聚类结果角度划分 从聚类变量类型角度划分 从聚类原理角度划分 聚类算法种类 从聚类结果角度划分: 覆盖聚类与非覆盖聚类:每个数据点都至少属于一个类,为覆盖聚类,否则为非覆盖聚类 层次聚类和非层次聚类:存在两个类,其中一个类是另一个类的子集,为层次聚类,否则为非层次聚类 确定聚类和模糊聚类:任意两个类的交集为空,一个数据点最多只属于一个类,为确定聚类(或硬聚类)。否则,如果至少一个数据点属于一个以上的类,为模糊聚类 聚类算法种类 从聚类变量类型角度划分 数值型聚类算法、分类型聚类算法、混合型聚类算法 从聚类的原理角度划分 划分聚类(Partitional clustering) 层次聚类(Hierarchical clustering) 基于密度的聚类(Density-based clustering) 网格聚类(Rid clustering) 两步聚类算法 两步聚类:Chiu,2001年在BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)算法基础上提出的一种改进算法 特点: 算法尤其适合于大型数据集的聚类研究 通过两步实现数据聚类 同时处理数值型聚类变量和分类型聚类变量 根据一定准则确定聚类数目 诊断样本中的离群点和噪声数据 两步聚类算法 第一步,预聚类 采用“贯序”方式将样本粗略划分成L个子类 预聚类过程聚类数目不断增加 第二步,聚类 在预聚类的基础上,再根据“亲疏程度”决定哪些子类可以合并,或者哪些子类可以在拆分为更小的子类,最终形成L’类 聚类变量均为数值型(标准化后),采用欧氏距离,否则,采用对数似然距离 通过对数似然函数的形式描述全部样本的聚类分布特征:混合分布,总体分布描述为有限个子分布的加权线性组合 如果数据矩阵的各行独立,则: “亲疏程度”的测度 “亲疏程度”的测度 K个聚类变量x1,x2,…xk,KA个数值型聚类变量和KB个分类型聚类变量。对数似然距离定义为: 反应了类内部变量取值的总体差异性(定距变量以方差测度,分类型变量以熵测度) 合并之前的对数似然 合并之后的对数似然 两步聚类算法:预聚类 算法是Zhang等,1996,BIRCH算法的改进算法,CF树(Clustering Feature Tree) CF树是一种描述树结构的数据存储方式 叶结点为子类,具有同一父结点的若干子类合并为一个大类形成树的中间结点。若干大类合并成更大的类形成更高层的中间结点,直到根结点表示所有数据形成一类 CF树是一种数据压缩存储方式(充分统计量) 数值型变量值的总和及平方和 两步聚类算法:预聚类 预聚类过程:建立CF树 视所有数据为大类,汇总统计量存在根结点中 读入一个样本点,从CF树的根结点开始,利用结点的汇总统计量,计算数据与中间结点的对数似然距离。沿对数似然距离最小的中间结点依次向下选择路径直到叶结点 计算与子树中所有叶结点(子类)的对数似然距离,找到距离最近的叶结点 两步聚类算法:预聚类 预聚类过程 如果最近距离小于一定阈值,则该数据被相应的叶结点“吸收”;否则,该数据将“开辟”一个新的叶结点。重新计算叶结点和相应所有父结点的汇总统计量 叶结点足够大时应再分裂成两个叶结点 叶结点个数达到允许的最大聚类数目时,应适当增加阈值重新建树,以得到一棵较小的CF树 重复上述过程,直到所有数据均被分配到某个叶结点(子类)为止 两步聚类算法:预聚类 离群点的甄别 离群点,即那些合并到任何一个类中都不恰当的数据点 两步聚类的处理策略: 找到包含样本量较少的“小”叶结点,如果其中的样本量仅是“最大”叶结点所含样本量的很小比例,则视这些叶结点中的数据点为离群点(Clementine默认为25%) 两步聚类算法:聚类 聚类过程:分析对象是预聚类所形成的稠密区域 方法:层次聚类法 逐步将较多的小类合并为较少的大类,再将较少的大类合并成更少的更大类,最终将更大类的合并成一个大类,是一个类不断“凝聚”的过程 问题: 第一,内存容量问题 第二,怎样的聚类数目是合适的问题 聚类数目的确定 第一阶段:依据BIC,确定粗略的聚类数 依据类内部差异性并兼顾模型复杂度 所有类合并成一个大类,BIC的第一项最大,第二项最小。当聚类数目增加时,第一项逐渐减少,
您可能关注的文档
最近下载
- 初中英语《比较级和最高级》课件.pptx VIP
- 13、公路工程预算定额JTG-T B06-03-2007.doc VIP
- 微信公众号外包方案.docx VIP
- 2008年修电脑1400张照片连接.docx VIP
- 抽水试验报告-1.docx
- 可行性研究报告财务分析自动计算电子表格资料.xls VIP
- 方正证券-电子行业深度报告:光刻胶研究框架2.0,详解上游单体、树脂、光酸、光引发剂-220125.pdf VIP
- 2025年中国康复医疗产业市场前景分析与投资建议报告.docx
- 奶牛养殖场建设项目可行性实施报告可行性实施报告.docx
- 2025年中国共青团入团团员必知知识考试题与答案 .pdf VIP
文档评论(0)