教育信息处理第十二章讲稿课件.pptVIP

  • 8
  • 0
  • 约4.86千字
  • 约 41页
  • 2016-04-07 发布于湖北
  • 举报
一 基本原理(系统聚类法,此外还有动态聚类法) 1 设有n 个样品,m个指标,有数据矩阵: 2 规格化变换(使各个指标权重相同,即同等重要) 3 确定距离(亲疏关系) (1)距离的性质 多元统计分析中的距离dij(样品Xi和Xj之间的距离)满足下列3个性质: ①?? dij≥0,对一切Xi、Xj,当且仅当Xi=Xj时,有dij=0; ②?? dij=dji , 即Xi与Xj的距离 = Xj与Xi的距离; ③?? 对于样品Xi、Xj、Xk,有dij≤ dik+dkj,这是几何学中三角不等式的推广(任意两边之和大于第三边)。 任意两个样品距离越小,说明它们越接近(一致),计算距离的方法很多,教材P258 (2)??欧氏距离( 我们只介绍欧氏距离) (3)距离矩阵(按上述方法分别算出任意两个样品之间的距离) 该矩阵共有n行、n列: 4 开始聚类(初始为n类,每个样品为1类) ①从D中找出一个最小值涉及到的两个类(最小距离法,还有其他距离法:P259-260); ②在数据矩阵X中,把上述两类合并成一类,两组数据取平均值,总的类就减少了一个; ③重新计算D(实际上只要计算刚合并的那个类与其他各类的距离); ④重复①、②、③,直到所有的样品都归为一类或者归为所需要的类为止。 5 画出聚类谱系图 二 应用例(10名学生三次测验成绩 ,要求为4类) 1 原始数据及规格化数据 2

文档评论(0)

1亿VIP精品文档

相关文档