数据挖掘常用算法概述.ppt

层次聚类方法讨论 层次方法的主要缺点: 没有良好的伸缩性: 时间复杂度至少是 O(n2) 一旦一个合并或分裂被执行,就不能修复; 综合层次聚类和其它的聚类技术: BIRCH (1996): 使用 CF-tree 动态调整子聚类的质量。 CURE (1998): 从聚类中选择分布“好”的数据点,并以指定的比例向聚类中心收缩。 CHAMELEON (1999): 利用动态建模技术进行层次聚类。 聚类分析 什么是聚类分析? 划分方法(Partitioning Methods) 分层方法 基于密度的方法 异常分析 定义 两个参数: ?:邻域的最大半径 MinPts :数据对象?-邻域内最少的数据个数 给定对象集合D ? 邻域N?(p): 对象p的半径为?内的区域,即{q ? D | dist(p,q) = ?} 核心对象:q ? D,|N?(q)|?MinPts 从对象q到对象p是直接密度可达的:p?N?(q)且|N?(q)| ? MinPts p q MinPts = 5 ? = 1 cm 定义(续) 从对象q到对象p关于?和MinPts是密度可达的:存在对象链p1,p2,…,pn,并且p1=q,pn=p,pi?D,从pi到pi+1关于?和MinPts是直接密度可达的(非对称) 对象p和q关于?和MinPts密度相连:存在对象o ?D,使得从o到对象p和q关于?和MinPts密度可达(

文档评论(0)

1亿VIP精品文档

相关文档