交通数据处理与分析第三章聚类分析剖析.ppt

交通数据处理与分析第三章聚类分析剖析.ppt

交通数据处理与分析第三章聚类分析剖析

Cophenet函数 Cophenet函数用来计算系统聚类树的cophenetic相关系数 Cophenetic相关系数反映了聚类效果的好坏,cophenetic相关系数越接近于1,说明聚类效果越好,可通过Cophenetic相关系数对比各种不同的距离计算方法和不同的系统聚类法的聚类效果 c = cophenet(Z, Y) [c, d] = cophenet(Z, Y) 在上述调用中,cophenet函数用pdist函数输出的Y和linkage函数输出的Z计算系统聚类树的cophenetic相关系数。输出参数c为Cophenetic相关系数,d为cophenetic距离向量,d与Y等长,c是d与Y之间的线性相关系数。 inconsistent函数 用来计算系统聚类树矩阵Z中每次并类得到的链接的不一致系数,其调用格式如下 Y = inconsistent(Z) Y = inconsistent(Z,d) 参数Y是一个(n-1)*4的矩阵,各列的含义如下 列序号 说明 1 计算设计的所有链接长度(即并类距离)的均值 2 计算涉及的所有链接长度的标准差 3 计算涉及的链接个数 4 不一致系数 不一致系数可用来确定最终的分类个数。在并类过程中,若某一次并类对应的不一致系数较上一次有大幅增加,说明该次并类效果不好,而它上一次的并类效果使比较好的,不一致系数增加的幅度越大,说明上一次并类效果越好。在使得类的个数尽量少的前提下,可参照不一致系数的变化,确定最终的分类数。 Culuster函数 Culuster在linkages函数的基础上创建聚类,并输出聚类结果。 Clusterdata 函数 调用了pdist、linkage和cluster函数,用来由原始眼根数据矩阵X创建系统聚类, T = clusterdata(X, cutoff) T = clusterdata(X, param1, val1, param2, val2, …) 输出参数T包含n个元素的列向量,其元素为响应观测所属类的类序号。Curfoo为阈值。 Clusterdata函数 T = clusterdata(X, cutoff) T = clusterdata(X, param1, val1, param2, val2, …) 参数名 参数值 含义 ‘distance’ Pdist函数所支持的metric参数的取值 指定距离的计算方法 ‘linkage’ Linkage函数所支持的method参数的取值 制定系统聚类方法 ‘cutoff’ 正实数 制定不一致系数或距离的阈值 ‘maxclust’ 正整数 制定最大类数 ‘criterion’ ‘inconsistent’或‘distance’ 指定聚类的标准 * * * * * * * * 3、计算新类⑥与各当前类的距离, 得距离矩阵如下:  ②   ③   ⑥ ① ② ③  13 104 265 89 232 37 为最小, ⑦=  ⑥   ⑦ ③ ⑥  37 93.25 245.25 4、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。 为最小,⑧= 5、 6、按聚类的过程画聚类谱系图 4 5 ⑥ ⑨ ⑧ 并类距离 3 1 2 ⑦ 7、决定类的个数与类。 观察此图,我们可以把5个样品分为3类, 、 、 。 四、重心法(Centroid) ? ? 和 类与类之间的距离就考虑用重心之间的距离表示。设p与q的重心分别是 ,则类p和q的距离为 将p和q合并为k,则k类的样品个数为 它的重心是 某一类 r 的重心是 ,它与新类k的距离是 经推导可以得到如下递推公式: 设聚类到某一步,类p与 q分别有样品 、 个,   ②   ③   ④   ⑤ ① ② ③ ④ 13 104 260 272 89 221 245 36 40 4 计算5个样品两两之间的距离 记为距离矩阵 (采用欧氏距离), 2. 合并距离最小的两类为新类,按顺序定为第6类。  ⑥= 例 重心法 3、计算新

文档评论(0)

1亿VIP精品文档

相关文档