数据挖掘与数据仓库A.docVIP

下载本文档

4
0
约6.76千字
约 8页
2017-08-27 发布于安徽
举报

数据挖掘与数据仓库A.doc

西南大学荣昌校区　信息管理系《数据挖掘与数据仓库》课程试题【A】卷 2012～CURE算法采用了一种新颖的层次聚类算法，该算法选择基于质心和基于代表对象方法之间的中间策略。CURE算法：利用代表点聚类 CURE算法采用了一种新颖的层次聚类算法，该算法选择基于质心和基于代表对象方法之间的中间策略。它不用单个质心或代表一个簇，而是选择数据空间中固定数目的具有代表性的点。簇的代表点产生方式：首先选择簇中分散的对象，然后根据一个特定的分数或收缩因子向簇中心“收缩”或移动它们。在算法每一步，有最近距离的代表点对（每个点来自不同簇）的两个簇合并。 CURE算法的核心步骤： (1) ? 从源数据对象中抽取一个随机样本S； (2) ? 将样本S分割为一组划分； (3) ? 对每个划分局部地聚类； (4) ? 通过随机取样剔除孤立点。如果一个簇增长得太慢，就去调它； (5) ? 对局部得簇进行聚类。落在每个新形成得簇中的代表点根据用户定义的一个收缩因子;收缩或向簇中心移动； (6) ? 用相应的簇标签来标记数据。优点：CURE的复杂度是O(n)，对孤立点的处理更加健壮，可识别非球形和大小变化较大的簇；对大型数据库也有良好的伸缩性；支持复杂形状和不同大小的聚类；敏感度低。缺点：不能处理分类属性 CURE聚类算法的实现任务背景聚类（clustering）就

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据挖掘与数据仓库A.docVIP