数据挖掘与读数据仓库a.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
西南大学荣昌校区  信息管理系 《数据挖掘与数据仓库》课程试题 【A】卷 2012~CURE算法采用了一种新颖的层次聚类算法,该算法选择基于质心和基于代表对象方法之间的中间策略。CURE算法:利用代表点聚类 CURE算法采用了一种新颖的层次聚类算法,该算法选择基于质心和基于代表对象方法之间的中间策略。它不用单个质心或代表一个簇,而是选择数据空间中固定 数目的具有代表性的点。簇的代表点产生方式:首先选择簇中分散的对象,然后根据一个特定的分数或收缩因子向簇中心“收缩”或移动它们。在算法每一步,有最 近距离的代表点对(每个点来自不同簇)的两个簇合并。 CURE算法的核心步骤: (1) ? 从源数据对象中抽取一个随机样本S; (2) ? 将样本S分割为一组划分; (3) ? 对每个划分局部地聚类; (4) ? 通过随机取样剔除孤立点。如果一个簇增长得太慢,就去调它; (5) ? 对局部得簇进行聚类。落在每个新形成得簇中的代表点根据用户定义的一个收缩因子;收缩或向簇中心移动; (6) ? 用相应的簇标签来标记数据。 优点:CURE的复杂度是O(n),对孤立点的处理更加健壮,可识别非球形和大小变化较大的簇;对大型数据库也有良好的伸缩性;支持复杂形状和不同大小的聚类;敏感度低。 缺点:不能处理分类属性 CURE聚类算法的实现 任务背景 聚类(clustering)就是将数据对象分组成为多个类或簇(cluster),在同一簇中的对象之间具有较高的相似度,而不同的簇中对象差别较大。相异度是根据描述对象的属性值来计算的。距离是经常采用的度量方式。聚类分析源于许多研究领域,包括数据挖掘,统计学,生物学,以及机器学习。 作为统计学的一个分支,聚类分析已经被广泛的研究了许多年,主要集中在基于距离的聚类分析。基于k-means(k-平均值),k-medoids(k-中心点)和其他一些方法的聚类分析工具已经被加入到许多统计分析软件包或系统中,例如S-Plus,SPSS,以及SAS。 CURE(Clustering Using Representatives)是一种针对大型数据库的高效的聚类算法。基于划分的传统的聚类算法得到的是球状的,相等大小的聚类,对异常数据比较脆弱。CURE采用了用多个点代表一个簇的方法,可以较好的处理以上问题。并且在处理大数据量的时候采用了随机取样,分区的方法,来提高其效率,使得其可以高效的处理大量数据。 基本目标 聚类算法CURE的算法实现。对图形进行聚类,在时间,结果方面对其性能进行评估。 算法流程 CURE的算法在开始时,每个点都是一个簇,然后将距离最近的簇结合,一直到簇的个数为要求的K。它是一种分裂的层次聚类。算法分为以下6步: 1)从源数据对象中抽取一个随机样本S。 2)将样本S分割为一组划分。 3)对划分局部的聚类。 4)通过随机取样提出孤立点。如果一个簇增长得太慢,就去掉它。 5)对局部的簇进行聚类。 6)用相应的簇标签标记数据。 算法设计 (1)基本聚类算法 procedure cluster(S, k) /*将数据集S聚类成为k个簇*/ begin 1. T := build_kd_tree(S) /*对应数据集S建立一个K-DTree T*/ 2. Q := build_heap(S) /*对应数据集S建立一个堆 Q*/ 3. while size(Q) k do { /*聚类直至簇的个数为k */ 4. u := extract_min(Q) /*找到最近的两个簇u,v */ 5. v := u.cloest 6. delete(Q, v) 7. w := merge(u, v) /*将u,v合并为簇w */ 8. delete_rep(T, u);delete_rep(T, v);insert_rep(T, w) 9. w.cloest := x /* x is an arbitrary cluster in Q*/ 10. for each x∈Q do{ /*调节因合并带来的T和Q的变化*/ 11. if (dist(w,x) dist(w,w.cloest)) 12. w.cloest := x 13. if x.cloest is either u or v { 14.

文档评论(0)

kkko + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档