§2第五章聚类分析(6635KB).pptVIP

  • 29
  • 0
  • 约2.9万字
  • 约 186页
  • 2018-04-09 发布于广东
  • 举报
* 步骤一:收集数据样本、可用样本数量、相应属性、属性数量、类型、簇的数量,其中一些信息可能是不可控(或预先未知)的。 步骤二:属性选择或属性抽取: a.属性的选择,从原始属性中选取用于聚类的更有效的属性子集。 b.属性的抽取,利用对输入属性的一次或多次转换产生新的更显著的属性。 步骤三:产生一个相似度矩阵: 步骤四:确定目标划分的簇的数目或聚类划分的某个终止条件及每一个簇的相应定义。 该步可由多种聚类算法实现。 步骤五:实施聚类分析,产生结果 * 距离阈值d0将影响簇的数量和大小 * 聚类结果对所使用属性集的微小变化不会太敏感 * 在实际情况中簇的数目一般根据实际问题来决定,没有一种方法对于任何类型的数据都能得到最佳结果,可以针对不同的可选方法进行试验,并根据选定的准则比较这些算法。 * (CF树):是一棵高度平衡树,其节点是CF元组,具有两个参数:平衡因子B和阈值T。每个非叶节点最多包含B个元组[CFi,childi](其中i =1,2,…,B),childi是指向第i个子节点的指针,CFi是这个子节点代表的子簇的CF向量。即一个非叶节点实际上由所有元组代表的子簇组成。每个叶节点包含了最多L个元组,形式为[CFi],i =1,2,…,L。每个叶节点有两个指针:prev 和 next,通过这两个指针把所有的叶节点联结在一起,以提高搜索效率。叶结点代表的簇由所有元组代表的子簇

文档评论(0)

1亿VIP精品文档

相关文档