logo

您所在位置网站首页 > 海量文档  > 教学课件 > 大学课件

数据挖掘5-聚类要点解析.ppt 157页

本文档一共被下载: ,您可全文免费在线阅读后下载本文档。

  • 支付并下载
  • 收藏该文档
  • 百度一下本文档
  • 修改文档简介
全屏预览

下载提示

1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
基于偏差的离群点检测 基本思想:基于偏离的孤立点检测( deviation-based outlier detection )不采用统计检验或基于距离的度量值来确定异常对象。相反,它通过检查一组对象的主要特征来确定孤立点。与给出的描述“偏离”的对象被认为是孤立点。 序贯的异常技术 模仿人类此能够一系列推测类似的对象中识别异常对象的方式 OLAP 数据立方体技术 在大的高维数据集中,使用数据立方体发现异常区域 离群点检测的应用和研究 高维数据 时序数据 空间数据 总结 聚类分析基于对象的相似度进行组合,有着广泛的应用 数据类型不同,其相似度的计算不同 聚类算法可分为:分裂方法、分层方法、基于密度的方法、基于格网的方法、基于模型的方法等 Outlier 检测和分析 对诈骗检测十分有用, 包括统计的、基于距离和基于偏差的方法 很多可伸缩聚类算法 Partitioning: k-means, k-medoids, CLARANS Hierarchical: BIRCH, ROCK, CHAMELEON Density-based: DBSCAN, OPTICS, DenClue Grid-based: STING, WaveCluster, CLIQUE Model-based: EM, Cobweb, SOM Frequent pattern-based: pCluster Constraint-based: COD, constrained-clustering 现有的聚类技术并未解决所有的需求,仍是比较活跃的研究领域 子空间聚类 聚类只存在某些子空间内 子空间聚类: 在所有的子空间搜索聚类 CLIQUE (Clustering In QUEst) 自动识别高维数据的子空间,比原始空间更好地聚类 CLIQUE 可认为是基于格网和基于密度的 在每个维度将数据化分成相同数量的等分区间 将m维数据空间划分成互不重叠的矩形单元 若单元内的数据占总数据量的比例超过输入模型参数,则认为其是稠密的 子空间内最大的连通稠密单元为一个聚类 主要步骤 划分数据空间,找出位于分割单元内数据点的数量 按Apriori原则识别处包含聚类的子空间 识别聚类 确定所有感兴趣子空间的稠密单元 确定所有感兴趣子空间的连通稠密单元 为聚类生成一个最小描述 为每个聚类确定覆盖连通稠密单元聚类的最大区域 为每个聚类确定一个最小覆盖 Salary (10,000) 20 30 40 50 60 age 5 4 3 1 2 6 7 0 20 30 40 50 60 age 5 4 3 1 2 6 7 0 Vacation(week) age Vacation Salary 30 50 ? = 3 CLIQUE的优缺点 优点 自动找出高维子空间, 这些空间存在高密度聚类 对输入数据的顺序不敏感, 不需假定规范的分布 和输入的大小成线性伸缩,随着数据的维度增加,有很好的伸缩性 缺点 方法的简化降低了聚类的精度 内容 聚类的基本定义 聚类方法的类型 分裂方法 分层方法 基于密度的方法 基于格网的方法 基于模型的方法 高维数据的聚类 聚类评估 Outlier分析 总结 聚类评估 聚类评估 估计在数据集上进行聚类的可行性和被聚类方法产生的结果的质量 聚类评估的任务 估计聚类趋势:评估数据集是否存在非随机结构(仅当数据中存在非随机结构时,聚类分析才有意义) 确定数据集中的簇数:在聚类之前,估计簇数 测定聚类质量:聚类之后,评估结果簇的质量 估计聚类趋势 例:一个在数据空间均匀分布 的数据集 估计聚类趋势 利用霍普金斯统计量(Hopkins Statistic)测试空间随机性 确定数据集中的簇数 实验方法 对于n个点的数据集,簇数 ≈√n/2 ,每个簇约有√2n个点 肘方法(Elbow method) 给定k>0,使用某种聚类算法对数据集聚类,并计算簇内方差和var(k) 绘制var关于k的曲线,曲线的第一个(或最显著的)拐点暗示“正确的”簇数 交叉验证方法 将数据集分为m个部分 用m-1个部分建立一个聚类模型,用剩余部分检验聚类的质量 对测试集中的每个点,找出最近的质心,用测试集中所有点与它们的最近质心之间的距离的平方和来度量聚类模型拟合测试集的程度 对任意k > 0, 重复上述步骤m次,对于不同的k值,比较总体质量度量,选取最佳拟合数据的簇数 测定聚类质量 两种方法 外在方法: supervised, i.e., 有基准可用 用某种聚类质量度量对聚类结果和基准进行比较 例:BCubed精度和召回率 内在方法: unsupervised, i.e.,无基准可用 通过考察簇的分离情况和簇的紧凑情况来评估聚类 例:轮廓

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码: 点击我更换图片

“原创力文档”前称为“文档投稿赚钱网”,本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。原创力文档是网络服务平台方,若您的权利被侵害,侵权客服QQ:3005833200 电话:19940600175 欢迎举报,上传者QQ群:784321556