聚类分析的案例分析教程.ppt

聚类分析 ; “人以类聚, 物以群分”。对事物进行分类,是人们认识事物的出发点,也是人们???识世界的一种重要方法。因此,分类学已成为人们认识世界的一门基础学科。 ;1 距离聚类 ;由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的数学工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。 聚类问题的一般提法是:设有 个样品的 元观测数据组成一个数据矩阵 ; 其中每一行表示一个样品,每一???表示一个指标, 表示第 个样品关于第 项指标的观测值,要根据观测值矩阵X对样品或指标进行分类。;向量的距离 ;;;在MATLAB中,计算距离的命令是pdist. 调用格式 Y =pdist(X,distance) 输入的 X是一个矩阵,行为个体,列为指标,distance 是距离的类型。若缺省distance,则输出的Y是一个行向量,向量的长度为(N-1)*N/2,其中N是样本的容量,Y的元素分别为个体(1,2),(1,3),..., (1,N), (2,3),...(2,N),.....(N-1,N)之间的欧氏距离。;省(市);解:x=[18738.96 778.36 452.75 7707.87 21791.11 1399.14 369.12 6199.77 9302.38 959.43 293.92 3603.72 8354.63 638.76 65.33 2610.61 9422.22 938.15 141.75 1976.49];;D = 1.0e+004 * 0 0.3462 1.0293 1.1575 1.0944 0.3462 0 1.2763 1.3932 1.3080 1.0293 1.2763 0 0.1428 0.1639 1.1575 1.3932 0.1428 0 0.1280 1.0944 1.3080 0.1639 0.1280 0 矩阵D中的第3行第2列为12763,表示上海与山西的欧氏距离为12763, 其余类推.;若想得到下三角阵,则有命令: S = tril(squareform(d1)) S=1.0e+004 * 0 0 0 0 0 0.3462 0 0 0 0 1.0293 1.2763 0 0 0 1.1575 1.3932 0.1428 0 0 1.0944 1.3080 0.1639 0.1280 0 若想得到上三角矩阵,可用命令 S = triu(squareform(d1)) ; 欧氏距离与量纲有关,因此,有时需要对数据进行预处 理,如标准化等,在Matlab中的命令是:zscore(x). ;d3=pdist(x, minkowski,3); %计算明氏距离,d3为1行10列 的行向量 d4=pdist(x,chebychev)  %计算切氏距离. d5=pdist(x,seuclidean)  %计算方差加权距离. d6=pdist(x,mahalanobis) %计算马氏距离; 聚类分析方法不仅可以对样品进行分??,而且可以对变量进行分类,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。对 个指标变量进行聚类时,用相似系数来衡量变量之间的相似程度(关联度),若用 表示变量 之间的相似系数,则应满足:;相似系数中最常用的是相关系数与夹角余弦. 例1.2. 计算例1.1中各指标之间的相关系数与夹角余弦 解:x=[…]; %与例6.1.1数据相同 R=corrcoef(x); %指标之间的相关系数;x1=normc(x); % 将x的各列化为单位向量 J=x1*x1   

文档评论(0)

1亿VIP精品文档

相关文档