数据挖掘与数据仓库A.docVIP

  • 4
  • 0
  • 约6.76千字
  • 约 8页
  • 2017-08-27 发布于安徽
  • 举报
西南大学荣昌校区  信息管理系 《数据挖掘与数据仓库》课程试题 【A】卷 2012~CURE算法采用了一种新颖的层次聚类算法,该算法选择基于质心和基于代表对象方法之间的中间策略。CURE算法:利用代表点聚类 CURE算法采用了一种新颖的层次聚类算法,该算法选择基于质心和基于代表对象方法之间的中间策略。它不用单个质心或代表一个簇,而是选择数据空间中固定 数目的具有代表性的点。簇的代表点产生方式:首先选择簇中分散的对象,然后根据一个特定的分数或收缩因子向簇中心“收缩”或移动它们。在算法每一步,有最 近距离的代表点对(每个点来自不同簇)的两个簇合并。 CURE算法的核心步骤: (1) ? 从源数据对象中抽取一个随机样本S; (2) ? 将样本S分割为一组划分; (3) ? 对每个划分局部地聚类; (4) ? 通过随机取样剔除孤立点。如果一个簇增长得太慢,就去调它; (5) ? 对局部得簇进行聚类。落在每个新形成得簇中的代表点根据用户定义的一个收缩因子;收缩或向簇中心移动; (6) ? 用相应的簇标签来标记数据。 优点:CURE的复杂度是O(n),对孤立点的处理更加健壮,可识别非球形和大小变化较大的簇;对大型数据库也有良好的伸缩性;支持复杂形状和不同大小的聚类;敏感度低。 缺点:不能处理分类属性 CURE聚类算法的实现 任务背景 聚类(clustering)就

文档评论(0)

1亿VIP精品文档

相关文档