交通数据处理-第三章-聚类分析2.pptx

  1. 1、本文档共70页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
交通数据处理-第三章-聚类分析2

聚类分析 2;系统聚类法的基本思想 先将n个样品各自看成一类,然后规定样品之间的“距离”和类与类之间的距离。选择距离最近的两类合并成一个新类,计算新类和其它类(各当前类)的距离,再将距离最近的两类合并。这样,每次合并减少一类,直至所有的样品都归成一类为止。 ;(1)确定数据点之间的距离计算方法 (2)确定数据分类后类与类之间距离的计算方法;Pdist Y = pdist(X) 计算样品对的欧式距离。输入参数X是n х p的矩阵,矩阵的每一行对应一个样品,每一列对应一个变量。输出参数Y是包含n(n-1)/2个元素的行向量,用(i,j)表示第i个样品和第j个样品构成的样品对,则Y中的元素依次是(2, 1), (3, 1), …, (n, 1), (3, 2), …, (n, 2), … , (n, n-1);Y = pdist(X, metric) 输入参数metric指定计算距离的方法,metric为字符串,可用的字符串如下表所示。 ;Y = pdist(X, ‘minkowski’, p) 计算样品对的闵可夫斯基距离,输入参数p为闵可夫斯基距离计算中的指数,默认情况下,指数为2 ;Squareform Z = squareform(y) Z = squareform(y, ‘tomatrix’) y = squareform(Z) y = squareform(Z, ‘tovector’) 前两种调用时把pdist函数输出的距离向量y转为距离矩阵Z,而后两种调用则是把距离矩阵Z转换为pdist函数输出的距离向量y。;Linkage函数 Z = linkage(y) 利用最短距离法创建一个系统聚类树。输入参数y是样品对距离向量,是包含n(n-1)/2个元素的行向量,通常是pdist函数的输出。 输出Z是一个系统聚类树矩阵,它是(n-1)*3的矩阵,这里的n是原始数据中观测样品的个数。Z矩阵每一行对应一次并类,第i行上前两个元素为第i次并类的两个类的类编号,初始类编号为1~n,以后每形成一个新类,类编号从n+1开始逐次增加1. Z矩阵的第i行中的第3个元素为第i次并类时的并类距离 ;Z = linkage(y, method) 利用method参数制定的方法创建系统聚类树,method是字符串,可用的字符串如下所示 ;Z = linkage(y, method, metric) metric用来指定计算点与点之间距离的方法;;Dendrogram函数 H = dendrogram(Z) 由系统聚类树矩阵Z生成系统聚类树形图。输入参数Z是由linkage函数输出的系统聚类树矩阵。输出参数H是树形图中线条的句柄值向量,用来控制线条属性。;H = dendrogram(Z, p) 生成一个树形图,通过输入参数p来控制显示的叶节点数。 ;H = dendrogram(…, ‘labels’, S) 通过一个字符串数组或字符串元胞数组设定每一个观测值的标签。当树形图中显示了全部的叶节点时,叶节点的标签记为相应观测的标签;当树形图中忽略了某些节点时,只包含单个观测的叶节点的标签记为相应观测的标签。;;;Cophenet函数 Cophenet函数用来计算系统聚类树的cophenetic相关系数 Cophenetic相关系数反映了聚类效果的好坏,cophenetic相关系数越接近于1,说明聚类效果越好,可通过Cophenetic相关系数对比各种不同的距离计算方法和不同的系统聚类法的聚类效果;cophenetic相关系数 对给定的样本观测矩阵X,用y = (y1,y2, … , yn(n-1)/2)表示由pdist函数输出的样本的距离向量,用(i, j)表示由第i个样本和第j个样本构成的样本对,则y中的元素依次是样本对(2,1),(3,1),…,(n, 1),(3,2),…,(n,2), …,(n,n-1)的距离 设d = (d1, d2, …, d n(n-1)/2 ),d中元素依次是样本对(2,1),(3,1),…,(n, 1),(3,2),…,(n,2), …,(n,n-1)中初次并类时的并类距离,称为cophenetic距离;cophenetic相关系数 是指y与d之间的线性相关系数 ;c = cophenet(Z, Y) 在上述调用中,cophenet函数用pdist函数输出的Y和linkage函数输出的Z计算系统聚类树的cophenetic相关系数。输出参数c为Cophenetic相关系数 ;;;inconsistent函数 用来计算系统聚类树矩阵Z中每次并类得到的链接的不一致系数,其调用格式如下 Y = inconsistent(Z) Y = inconsistent(Z,d) 参数Y是一个(n-1)*4的矩阵

文档评论(0)

jiupshaieuk12 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6212135231000003

1亿VIP精品文档

相关文档