数据挖掘5-聚类要点解析.ppt

  1. 1、本文档共157页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于偏差的离群点检测 基本思想:基于偏离的孤立点检测( deviation-based outlier detection )不采用统计检验或基于距离的度量值来确定异常对象。相反,它通过检查一组对象的主要特征来确定孤立点。与给出的描述“偏离”的对象被认为是孤立点。 序贯的异常技术 模仿人类此能够一系列推测类似的对象中识别异常对象的方式 OLAP 数据立方体技术 在大的高维数据集中,使用数据立方体发现异常区域 离群点检测的应用和研究 高维数据 时序数据 空间数据 总结 聚类分析基于对象的相似度进行组合,有着广泛的应用 数据类型不同,其相似度的计算不同 聚类算法可分为:分裂方法、分层方法、基于密度的方法、基于格网的方法、基于模型的方法等 Outlier 检测和分析 对诈骗检测十分有用, 包括统计的、基于距离和基于偏差的方法 很多可伸缩聚类算法 Partitioning: k-means, k-medoids, CLARANS Hierarchical: BIRCH, ROCK, CHAMELEON Density-based: DBSCAN, OPTICS, DenClue Grid-based: STING, WaveCluster, CLIQUE Model-based: EM, Cobweb, SOM Frequent pattern-based: pCluster Constraint-based: COD, constrained-clustering 现有的聚类技术并未解决所有的需求,仍是比较活跃的研究领域 子空间聚类 聚类只存在某些子空间内 子空间聚类: 在所有的子空间搜索聚类 CLIQUE (Clustering In QUEst) 自动识别高维数据的子空间,比原始空间更好地聚类 CLIQUE 可认为是基于格网和基于密度的 在每个维度将数据化分成相同数量的等分区间 将m维数据空间划分成互不重叠的矩形单元 若单元内的数据占总数据量的比例超过输入模型参数,则认为其是稠密的 子空间内最大的连通稠密单元为一个聚类 主要步骤 划分数据空间,找出位于分割单元内数据点的数量 按Apriori原则识别处包含聚类的子空间 识别聚类 确定所有感兴趣子空间的稠密单元 确定所有感兴趣子空间的连通稠密单元 为聚类生成一个最小描述 为每个聚类确定覆盖连通稠密单元聚类的最大区域 为每个聚类确定一个最小覆盖 Salary (10,000) 20 30 40 50 60 age 5 4 3 1 2 6 7 0 20 30 40 50 60 age 5 4 3 1 2 6 7 0 Vacation(week) age Vacation Salary 30 50 ? = 3 CLIQUE的优缺点 优点 自动找出高维子空间, 这些空间存在高密度聚类 对输入数据的顺序不敏感, 不需假定规范的分布 和输入的大小成线性伸缩,随着数据的维度增加,有很好的伸缩性 缺点 方法的简化降低了聚类的精度 内容 聚类的基本定义 聚类方法的类型 分裂方法 分层方法 基于密度的方法 基于格网的方法 基于模型的方法 高维数据的聚类 聚类评估 Outlier分析 总结 聚类评估 聚类评估 估计在数据集上进行聚类的可行性和被聚类方法产生的结果的质量 聚类评估的任务 估计聚类趋势:评估数据集是否存在非随机结构(仅当数据中存在非随机结构时,聚类分析才有意义) 确定数据集中的簇数:在聚类之前,估计簇数 测定聚类质量:聚类之后,评估结果簇的质量 估计聚类趋势 例:一个在数据空间均匀分布 的数据集 估计聚类趋势 利用霍普金斯统计量(Hopkins Statistic)测试空间随机性 确定数据集中的簇数 实验方法 对于n个点的数据集,簇数 ≈√n/2 ,每个簇约有√2n个点 肘方法(Elbow method) 给定k>0,使用某种聚类算法对数据集聚类,并计算簇内方差和var(k) 绘制var关于k的曲线,曲线的第一个(或最显著的)拐点暗示“正确的”簇数 交叉验证方法 将数据集分为m个部分 用m-1个部分建立一个聚类模型,用剩余部分检验聚类的质量 对测试集中的每个点,找出最近的质心,用测试集中所有点与它们的最近质心之间的距离的平方和来度量聚类模型拟合测试集的程度 对任意k > 0, 重复上述步骤m次,对于不同的k值,比较总体质量度量,选取最佳拟合数据的簇数 测定聚类质量 两种方法 外在方法: supervised, i.e., 有基准可用 用某种聚类质量度量对聚类结果和基准进行比较 例:BCubed精度和召回率 内在方法: unsupervised, i.e.,无基准可用 通过考察簇的分离情况和簇的紧凑情况来评估聚类 例:轮廓

文档评论(0)

挺进公司 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档