- 91
- 0
- 约1.02万字
- 约 49页
- 2019-06-19 发布于四川
- 举报
BIRCH algorithm Another example of the CF Tree Insertion with LB =3 If the branching factor of a leaf node can not exceed 3, then LN1 is split. sc8 sc1 Root LN1’ LN2 LN3 sc3 sc2 sc4 sc5 sc7 sc6 sc7 sc6 LN3 sc5 sc4 LN2 LN1’ sc1 sc2 sc3 sc8 LN1’’ LN1’’ BIRCH algorithm Another example of the CF Tree Insertion If the branching factor of a non-leaf node can not exceed 3, then the root is split and the height of the CF Tree increases by one. sc8 sc1 Root LN1’ LN2 LN3 sc3 sc2 sc4 sc5 sc7 sc6 sc7 sc6 LN3 sc5 sc4 LN2 LN1’ sc1 sc2 sc3 sc8 LN1’’ LN1’’ NLN2 NLN1 NLN1 NLN2 阶段一:扫描数据库,建立一个初始的CF树(它可以被看作一个数据的多层压缩,试图保留数据内在的聚类结构),随着对象的插入,CF树被动态地构造 阶段二:采用某个聚类算法对CF树的叶节点进行聚类。在这个阶段可以执行任何聚类算法,例如典型的划分方法。 Birch 算法是基于距离的层次聚类,综合了层次凝聚和迭代的重定位方法 BIRCH算法步骤 BIRCH算法特点 优点: BIRCH采用了一种多阶段聚类技术:数据集的单边扫描产生了一个基本的聚类,一或多遍的额外扫描可以进一步改进聚类质量。 BIRCH是一种增量的聚类方法,因为它对每一个数据点的聚类的决策都是基于当前已经处理过的数据点,而不是基于全局的数据点。 缺点: 如果簇不是球形的,BIRCH不能很好的工作,因为它用了半径或直径的概念来控制聚类的边界。 基于密度的方法 使用密度替代距离来描述数据点之间的相似度,只要相邻区域的密度越过某个边界值,就可以进行聚类 主要思想是将簇看作数据空间中被低密度区域分割开来的高密度对象区域 优点是可以筛选低密度空间中的“孤立点”或“噪声”,不同于给予距离的聚类方法,可以发现不规则形状的簇。 DBSCAN算法 Ε领域:给定对象半径为Ε内的区域称为该对象的Ε领域 核心对象:如果给定对象Ε领域内的样本点数大于等于MinPts,则称该对象为核心对象。 直接密度可达:对于样本集合D,如果样本点q在p的Ε领域内,并且p为核心对象,那么对象q从对象p直接密度可达。 密度可达:对于样本集合D,给定一串样本点p1,p2….pn,p= p1,q= pn,假如对象pi从pi-1直接密度可达,那么对象q从对象p密度可达。 DBSCAN算法描述 输入: 包含n个对象的数据库,半径E,最少数目MinPts; 输出:所有生成的簇 (1)Repeat (2) 从数据库中抽出一个未处理的点; (3) IF 抽出的点是核心点 THEN 找出所有从该点密度可达的对象,形成一个簇; (4) ELSE 抽出的点是边缘点(非核心对象),跳出本次循环,寻找下一个点; (5)UNTIL 所有的点都被处理 DBSCAN算法效果 DBSCAN算法优缺点 因为DBSCAN使用簇的基于密度的定义,因此它是相对抗噪音的,并且能处理任意形状和大小的簇。 但是如果簇的密度变化很大,例如ABCD四个簇,AB的密度大大大于CD,而且AB附近噪音的密度与簇CD的密度相当,这是当MinPs较大时,无法识别簇CD,簇CD和AB附近的噪音都被认为是噪音;当MinPs较小时,能识别簇CD,但AB跟其周围的噪音被识别为一个簇。 基于网格的方法 将对象区域划分为规定数目的矩形单元,这样可以方便形成唯一的网状结构,在网格上进行聚类分析。 此类算法有个优点:速度比较快,聚类效果与对象空间中每一维上的划分数目有关。 此类算法都存在两个问题: 一是难以选择合适的网格单元大小和数目,因为聚类的精度取决于网格的大小,所以若个数太少精度会较低,而个数太多时,复杂度又会较大; 二是如何对网格单元中数据对象的信息进行记录。 CLIQUE 算法 CLIQUE算法是基于网格同时基于密度的聚类算法。该算法针对高维空间数据集采用了子空间的概念来进行聚类,因此适用于处理高维数据,并可应用于大数据集。而且,该算法给出了用
您可能关注的文档
最近下载
- 2025河南工业职业技术学院单招《数学》试题附参考答案详解【夺分金卷】.docx VIP
- 自考00312政治学概论重点知识点汇总速记宝典.pdf VIP
- CB T 3988-2008 甲板室放水塞.pdf VIP
- 《建设工程施工合同(示范文本)》(GF20170201)通用条款.pdf
- LNG液化工厂储罐及槽车严重泄漏应急处置方案.pdf VIP
- 2025(人教版)体育三年级下册全册教案及教学设计.pdf VIP
- (正式版)D-L∕T 1035.5-2018 循环流化床锅炉检修导则 第5部分:锅炉耐火防磨层检修.docx VIP
- 材料腐蚀与防护:5讲-腐蚀形态及机理.ppt VIP
- 数据标注保密协议书.docx VIP
- 礼俗与禁忌解析.ppt VIP
原创力文档

文档评论(0)