第10章_SPSS的聚类分析.pptVIP

  • 11
  • 0
  • 约9.26千字
  • 约 67页
  • 2019-09-06 发布于广东
  • 举报
* 第10章 SPSS的聚类分析 * 聚类分析概述 两类: (A B) (C D E) 三类: (A B) (C) (D E) 依据平均得分的差距,差距较小的为一类. 分类过程中,没有事先指定分类的标准.完全根据样本数据客观产生分类结果. * 第10章 SPSS的聚类分析 * 亲疏远程度的衡量指标 相似性:数据间相似程度的度量 距离: 数据间差异程度的度量.距离越近,越“亲密”,聚成一类;距离越远,越“疏远”,分别属于不同的类 定距型个体间的距离: 把每个个案数据看成是n维空间上的点,在点和点之间定义某种距离.一般适用于定距数据 欧氏距离(EUCLID) 平方欧氏距离(SEUCLID) 聚类分析概述 * 第10章 SPSS的聚类分析 * 品质型个体间的距离 姓名 授课方式 上机时间 选某门课程 张三 1 1 1 李四 1 1 0 王五 0 0 1 聚类分析概述 * 第10章 SPSS的聚类分析 * 品质型个体间的距离 卡方距离:计数变量 聚类分析概述 姓名 选修课门数 (期望频数) 专业课门数 (期望频数) 得优门数 (期望频数) 合计 张三 9(8.5) 6(6) 4(4.5) 19 李四 8(8.5) 6(6) 5(4.5) 19 合计 17 12 9 38 * 第10章 SPSS的聚类分析 * 雅科比(Jaccard)系数:适用二值变量 个体j 个体i 1 0 1 a b 0 c d a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数 特点:排除同时不拥有某特征的情况;取1的状态比取0更有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化 * 第10章 SPSS的聚类分析 * 品质型个体间的距离 雅科比(Jaccard)系数:适用二值变量 姓名 授课方式 上机时间 选某门课程 张三 1 (0) 1(0) 1(0) 李四 1 (0) 1(0) 0(1) 王五 0 (1) 0(1) 1(0) (张三,李四) 1: a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3 (张三,李四) 2: a=0 b=0 c=1 d=2 d(x,y)=1/(1+2)=1/3 (相同) (张三,李四) 1: a=2 b=1 c=0 d=0 J(x,y)=1/(1+2)=1/3 (张三,李四) 2: a=0 b=0 c=1 d=2 J(x,y)=1/1=1 (不相同) * 第10章 SPSS的聚类分析 * 品质型个体间的距离 Jaccard系数举例:根据临床表现研究病人是否有类似的病 姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4 张三 男 1 0 1 0 0 0 李四 女 1 0 1 0 1 0 王五 男 1 1 0 0 0 0 …….. 结论:张三和李四最有可能得类似的病;李四和王五不太有可能 * 第10章 SPSS的聚类分析 * 注:聚类分析的几点说明 所选择的变量应符合聚类的要求:所选变量应能够从不同的侧面反映我们研究的目的; 各变量的变量值不应有数量级上的差异(对数据进行标准化处理):聚类分析是以各种距离来度量个体间的“亲疏”程度的,从上述各种距离的定义看,数量级将对距离产生较大的影响,并影响最终的聚类结果。 各变量间不应有较强的线性相关关系 * 第10章 SPSS的聚类分析 * 10.

文档评论(0)

1亿VIP精品文档

相关文档