第十章 聚类分析.pptVIP

  • 3
  • 0
  • 约8.39千字
  • 约 37页
  • 2017-08-21 发布于江苏
  • 举报
第十章 聚类分析.ppt

第十章 聚类分析 聚类分析含义 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程称为聚类,由聚类所组成的簇是一组对象的集合,这些对象与同一簇中的对象彼此相似,与其它簇中的对象相异。 与分类不同,它要划分的类是未知的。 什么是好的聚类分析? 一个好的聚类分析方法会产生高质量的聚类 高类内相似度 低类间相似度 作为统计学的一个分支,聚类分析的研究主要是基于距离的聚类;一个高质量的聚类分析结果,将取决于所使用的聚类方法 聚类方法的所使用的相似性度量和方法的实施 方法发现隐藏模式的能力 数据类型及转换 1、数据矩阵:用p个变量(也称为度量或属性)来表现n个对象,例如用年龄、身高、性别等属性来表现对象“人”。构成一个n * p的矩阵。 2、相异度矩阵:存储n个对象两两之间的近似程度性,表现形式是一个n * n的矩阵。这里d(i,j)是对象i和对象j之间相异性的量化表示 相异度计算 许多聚类算法都是以相异度矩阵为基础,如果数据是用数据矩阵形式表示,则往往要将其先转化为相异度矩阵。 相异度d(i,j)的具体计算会因所使用的数据类型不同而不同,常用的数据类型包括: 区间标度变量 二元变量 标称型、序数型和比例标度型变量 混合类型的变量 数据类型及转换 3、区间标度度量 一个粗略线性标度的连续度量。(如重量,温度等) 为什么这么做? 选用的度量单位会直接影响聚类结果。例如千克改位克

文档评论(0)

1亿VIP精品文档

相关文档