聚类分析法.docVIP

  • 13
  • 0
  • 约3.89千字
  • 约 7页
  • 2017-02-12 发布于重庆
  • 举报
聚类分析法

4.3.1概念特征 1.含义 根据事物本身的特性研究个体分类的方法,是研究事物分类的基本方法。其是为了某种目的做的工作,并非真实存在所分的类。 2.原则 同一类中的个体相似性大,不同类中的个体差异很大。 3.分类 (1)按聚类对象分: 样品聚类:对观测量聚类,对反映被观测对象特征的各个变量值进行分类。目的是判断研究对象的属类。 变量聚类:根据所研究的问题选择反映事物某些特点的部分变量来研究事物的某方面。目的是找出彼此独立的有代表性的变量,以便在用少量有代表性变量代替众多变量时,损失信息很少。 (2)按聚类过程分: 分解方法:首先把所有个体认为一大类,然后根据距离最近或性质相似逐层分解,直到每个个体自成小类为止。 凝聚方法:首先把每个个体认为一小类,然后根据距离最近或性质相似逐步合并,直到所有个体一个大类为止。 4.3.2内容过程 1.数据准备 这里运用聚类分析方法对我国部分东西部地区的经济发展进行综合评价。 2.方法选择 按分析Analyze—聚类Classify—分层聚类Hierachical Classify的顺序展开如图4.10所示对话框。从左侧原始变量备选框中指定参与分析变量送入右侧变量Variable(s)框中。在聚类栏Classify选择聚类类型—观测量聚类Cases或变量聚类Variable,若做观测量聚类,还需指定一个标识变量送到样本标签框Label Cases by中。在输出显示栏系统默认选择统计量和图形。 单击方法选择Method功能按钮,展开对话框。 (1)聚类方法Cluster Method:定义、计算两项之间距离或相似性的方法。 组间连接:合并两类后使所有对应两项之间的平均距离最小。 组内连接:合并后使类中所有项之间的平均距离(平方)最小。 最近邻法:用两类之间最近点间的距离代表两类间的距离。 最远邻法:用两类之间最远点间的距离代表两类间的距离。 重心聚类:以计算所有各项均值间距离的方法计算两类间距离。 中位数法:以各类中的中位数为类中心。 最小方差:以类间方差最小为聚类原则。? (2)测度方法Measure:测度距离或相似性的算法。 方法一般与定义方法对应一致。聚类方法不同,测度算法相应不同,聚类结果会有区别。若方法与算法不一致,则输出警告提示,结果不能成立。 测度方法有计算连续变量的距离、离散变量的不相似性、二值变量的距离或不相似性。连续变量距离计算方法有: 欧氏距离:(∑(Xi-Yi)2)1/2,即两项间的差是每个变量值差的平方和再平方根,目的是计算其间的整体距离即不相似性。 距离平方:∑(Xi-Yi)2,目的是减少误差。 相似测度:∑(XiYi)2/((∑Xi2)(∑Yi2)),即两项间的相似性是向量间的余弦,值域-1—1,用0值表示相互垂直。 皮氏相关:∑(ZXiZYi)2/(n-1),即两项间的相似性是向量间的线性相关性,范围-1—1,0值表明非线性相关。 切氏距离:Max|Xi-Yi|,即两项间的距离是变量间最大差值的绝对值。 布氏距离:∑|Xi-Yi|,两项间的距离是每个变量值之差的绝对值总和。 明氏距离:(∑|Xi-Yi|p)1/p。 自定距离:(∑|Xi-Yi|p)1/r。若r=p,则为明氏距离。 (3)数据转换Transform Values:为消除量纲不同的影响。 若参与分析的变量量纲一致,则不需标准化转换。但不同的标准化会导致不同的聚类结果,因此选择方法注意与变量分布相对应。 标准化到Z分数:变量均值为0、标准差为1,(每个值-均值)/标准差。 标准化到某范围:范围-1—1,每个值/范围。 标准化到某一值:最大值为1,每个值/最大值。 标准化到某范围:范围0—1,(每个值-最小值)/范围。 标准化到某一值:均值的一个范围,每个值/均值。 标准化到标准差:单位标准差,每个值/标准差。 (4)测度转换Transform Measure:已计算相似性或不相似性,则不需转换。 距离取绝对值: 距离顺序颠倒:相似性值与不相似性值互变。 使距离标准化:(距离-最小值)/范围。 3.输出选择 (1)统计量 在主对话框单击Statistics出现对话框。 系统默认输出凝聚状态表Agglomeration schedule,其显示聚类每一步的合并过程、被合并两项间的距离、合并后的类水平,据此可以跟踪合并过程和观察接近程度。但需注意,选择不同的聚类方法、测度方法和标准化法,聚类的过程和结果不同。 还需选择输出分类结果,或指定类数Single solution,或限定类数范围Range of solution,但都取决于聚类类型选择。 (2)统计图 在主对话框单击Plot出现对话框。 树形图Dendrogram表明聚类每一步过程中被合并的类和系数值。其与凝聚状态表一致,侧重表示聚类的过程,同时直

文档评论(0)

1亿VIP精品文档

相关文档