交通数据处理与分析第三章聚类分析剖析.ppt

下载文档 降价啦

3
0
约1.05万字
约 92页
2017-06-30 发布于湖北
举报
保障服务

交通数据处理与分析第三章聚类分析剖析.ppt

交通数据处理与分析第三章聚类分析剖析

Cophenet函数 Cophenet函数用来计算系统聚类树的cophenetic相关系数 Cophenetic相关系数反映了聚类效果的好坏，cophenetic相关系数越接近于1，说明聚类效果越好，可通过Cophenetic相关系数对比各种不同的距离计算方法和不同的系统聚类法的聚类效果 c = cophenet（Z, Y） [c, d] = cophenet（Z, Y）在上述调用中，cophenet函数用pdist函数输出的Y和linkage函数输出的Z计算系统聚类树的cophenetic相关系数。输出参数c为Cophenetic相关系数，d为cophenetic距离向量，d与Y等长，c是d与Y之间的线性相关系数。 inconsistent函数用来计算系统聚类树矩阵Z中每次并类得到的链接的不一致系数，其调用格式如下 Y = inconsistent（Z） Y = inconsistent（Z，d）参数Y是一个(n-1)*4的矩阵，各列的含义如下列序号说明 1 计算设计的所有链接长度（即并类距离）的均值 2 计算涉及的所有链接长度的标准差 3 计算涉及的链接个数 4 不一致系数不一致系数可用来确定最终的分类个数。在并类过程中，若某一次并类对应的不一致系数较上一次有大幅增加，说明该次并类效果不好，而它上一次的并类效果使比较好的，不一致系数增加的幅度越大，说明上一次并类效果越好。在使得类的个数尽量少的前提下，可参照不一致系数的变化，确定最终的分类数。 Culuster函数 Culuster在linkages函数的基础上创建聚类，并输出聚类结果。 Clusterdata 函数调用了pdist、linkage和cluster函数，用来由原始眼根数据矩阵X创建系统聚类， T = clusterdata（X， cutoff） T = clusterdata（X， param1， val1， param2， val2， …）输出参数T包含n个元素的列向量，其元素为响应观测所属类的类序号。Curfoo为阈值。 Clusterdata函数 T = clusterdata（X， cutoff） T = clusterdata（X， param1， val1， param2， val2， …）参数名参数值含义 ‘distance’ Pdist函数所支持的metric参数的取值指定距离的计算方法 ‘linkage’ Linkage函数所支持的method参数的取值制定系统聚类方法 ‘cutoff’ 正实数制定不一致系数或距离的阈值 ‘maxclust’ 正整数制定最大类数 ‘criterion’ ‘inconsistent’或‘distance’ 指定聚类的标准 * * * * * * * * 3、计算新类⑥与各当前类的距离，得距离矩阵如下：　②　　 ③　　　⑥ ① ② ③ 　13 104 265 89 232 37 为最小， ⑦= 　⑥ 　 ⑦ ③ ⑥ 　37 93.25 245.25 4、重复步骤2、3，合并距离最近的两类为新类，直到所有的类并为一类为止。为最小，⑧= 5、 6、按聚类的过程画聚类谱系图 4 5 ⑥ ⑨ ⑧ 并类距离 3 1 2 ⑦ 7、决定类的个数与类。观察此图，我们可以把5个样品分为3类，、、。四、重心法（Centroid) ? ? 和类与类之间的距离就考虑用重心之间的距离表示。设p与q的重心分别是，则类p和q的距离为将p和q合并为k，则k类的样品个数为它的重心是某一类 r 的重心是，它与新类k的距离是经推导可以得到如下递推公式：设聚类到某一步，类p与 q分别有样品、个，　 ②　　 ③　　 ④　　 ⑤ ① ② ③ ④ 13 104 260 272 89 221 245 36 40 4 计算5个样品两两之间的距离记为距离矩阵（采用欧氏距离）， 2. 合并距离最小的两类为新类，按顺序定为第６类。　⑥＝例重心法 3、计算新

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

交通数据处理与分析第三章聚类分析剖析.ppt