数据挖掘5-聚类分析摘要.ppt

基于偏差的离群点检测 基本思想:基于偏离的孤立点检测( deviation-based outlier detection )不采用统计检验或基于距离的度量值来确定异常对象。相反,它通过检查一组对象的主要特征来确定孤立点。与给出的描述“偏离”的对象被认为是孤立点。 序贯的异常技术 模仿人类此能够一系列推测类似的对象中识别异常对象的方式 OLAP 数据立方体技术 在大的高维数据集中,使用数据立方体发现异常区域 离群点检测的应用和研究 高维数据 时序数据 空间数据 总结 聚类分析基于对象的相似度进行组合,有着广泛的应用 数据类型不同,其相似度的计算不同 聚类算法可分为:分裂方法、分层方法、基于密度的方法、基于格网的方法、基于模型的方法等 Outlier 检测和分析 对诈骗检测十分有用, 包括统计的、基于距离和基于偏差的方法 很多可伸缩聚类算法 Partitioning: k-means, k-medoids, CLARANS Hierarchical: BIRCH, ROCK, CHAMELEON Density-based: DBSCAN, OPTICS, DenClue Grid-based: STING, WaveCluster, CLIQUE Model-based: EM, Cobweb, SOM Frequent pattern-based: pCluster Con

文档评论(0)

1亿VIP精品文档

相关文档