聚类分析 特征提取.pptVIP

  • 359
  • 0
  • 约5.24千字
  • 约 43页
  • 2018-03-27 发布于江西
  • 举报
聚类分析 特征提取

内容提要 聚类分析方法 特征提取 聚类分析方法 聚类分析问题 聚类分析的基本概念 系统聚类方法 最优分割方法 聚类分析问题 聚类分析是研究”物以类聚”的一种统计方法.聚类分析问题的基本内容是如何把相似的事物归类.所谓聚类是研究事物究竟应该分成多少类、依据什么来分类. 例 1 聚类分析问题 例 1 假定要把五位大学毕业生进行聚类.他们的统计资料如下表所示: 试问,如何根据每位学生的四项指标对他们进行聚类? 聚类分析的基本概念 样品、变量 样品统计资料的一般表示 常用的距离表示 变量的标准化变换 类的特征表示 类间距离的表示 一、样品、变量 一般地,假定根据n个对象的p个指标值进行聚类,称这n个对象为样品;称p个指标为变量,记作 二、变量的分类 三、样品统计资料的一般表示 四、常用的距离表示 1、切比雪夫距离 第 个与第 个样品之间的距离为 2、绝对值距离 第 个与第 个样品之间的距离为 3、欧氏距离 第 个与第 个样品之间的距离为 例 2 假定有3个样品,10个变量(量纲相同),30个数据如下表所示 样品这间的三种距离如下表所示: 五、变量的标准化变换 对每一个 记 标准化变换: 六、类的特征表示 设有一个类G,G中含有m个样品,记作 其中 分别表示第i个样品的j个变量的值.如何刻划类G的特征? (1) 均值(或重心) (2)样本散布矩阵 与样本协方差矩阵 (3)直径 :有多种定义,如 七、类间距离的表示 设类 与 类中分别含有l,m个样品,其重心分别为 (1)最短距离法 (2)最长距离法 (3)重心法 (4)类平均法 (5)离差平方和法 一、系统聚类方法的基本思想 首先,把n个样品视为n个类;然后计算这个类之间的距离,把距离最小的两个类合并成一个类,于是得到n-1个类;重复上述步骤,每次至少合并一个类,直到所有的样品全归在一类中为止. 二、一般步骤: 1、确定样品之间距离与两类这间距离的定义, 分别记为 2、计算n个样品两两之间的距离,构成一个对称0矩阵,记为D(0). 3、把每个样品视为一个类,记作 反映了这n个类两两之间的距离. 4、把距离最小的两个类合并成一个新类,记作 如果这样的类不止两个,可以同时合并.重新计算合并后所有的类两两之间的距离,记作对称阵D(1). 5、在D(1)的基础上重复步骤4,直到n个样品合并在一类中为止. 6、把上述聚类过程用一张聚类图来表达. 7、请有关的专业人员根据聚类图决定最终应该把这n个样品划分成多少类,每个类中有哪些样品. 例 3 算法应用 最短距离法 最长距离法 重心法 类平均法 离差平方和法 现有8个样品,每个样品有2个变量(量纲相同),16 个数据如下表所示 试用系统聚类方法对这8个样品进行聚类. 解:样品之间采用欧氏距离.按类与类之间的 距离定义分别讨论如下: (1)最短距离法 1)计算D(0). 其中, 表示第 个样品 2)在D(0)中,最小值是1.0,相应的距离是D(3,4)与D(6,7). 因此, 合并成 合并成 可得D(1). 在计算D(1)时, 利用D(0)中的数据,未作合并的两个类之间距离不变;合并后的新类与其他类之间的距离可按下列递推公式计算: 3)在D(1)中,最小值是1.4,相应的距离是D(5,10).因此, 合并成 可得D(2). 在计算D(2)时, 利用D(1)中的数据,未作合并的两个类之间距离不变;合并后的新类与其他类之间的距离可按下列递推公式计算: 4

文档评论(0)

1亿VIP精品文档

相关文档