Matlab数据分析方法.ppt

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(2) Xie and Beni (XB) 准则 , 对应的 即为最优聚类数. (3) Kuyama & Sugeno 其中 表示第 个数据点到第 类中心的隶属度, 的最小值点对应最佳聚类数. (4) Kwon 其中 表示第 个数据点到第 类中心的隶属度, 的最小值点即为最佳聚类数. 例6.4.3 对经典的Iris数据和葡萄酒数据,分别应用上述准则,确定最佳聚类数. 解:利用Matlab软件我们可以求得相应的最佳聚类数。 表6.3 两类经典数据FCM的最佳聚类数 6.5 变量聚类 变量聚类在实际中应用: 可发现某些变量间的一些共性,有利于分析问题和解决问题; 可作为某些数据分析的中间过程: 如在回归分析中,若涉及自变量多,相关性强,先考虑变量聚类,再在每一类变量中进行主成分分析,选取各类中的某些主成分作为新自变量,这样不但消除变量间的复共线性,也可达到降低自变量维数的目的. 1.相似系数矩阵 注意: 第六章 聚类分析 Clustering analysis 谱系聚类的有效性 1 模糊聚类的有效性 2 6.4 聚类的有效性 样品之间和两个总体(类)之间究竟采用何种距离为好? 先假定样品之间的距离已定,例如选取欧氏距离. 对于类间五种不同距离, 哪种距离使得聚类效果最好? 聚类树的cophenet距离与生成该聚类树的原始距离之间的线性相关系数定义为聚类树的cophenet相关, 它度量了个体间的不相似性, 若该系数越接近于1,则聚类效果越好. 6.4 .1 谱系聚类的有效性 1. cophenet相关系数 会用 d分量依次为样品(2,1),(3,1),…,(n,1),(3,2),…,(n,2),…,(n,n-1)的距离,即用距离命令d=pdist(X)得到的距离向量。 ---样本间距离行向量 ---样本观测矩阵 分量依次为样品(2,1),(3,1),…,(n,1),(3,2),…,(n,2),…,(n,n-1)初次并为一个类中时的距离,称为cophenetic距离(和聚类树产生的距离相关)。 ---cophenetic距离向量 cophenet相关系数 注意:cophenet相关系数R反应了聚类效果好坏,R越接近1,聚类效果越好。可通过R对比各种不同的距离计算方法和不同的系统聚类方法的聚类效果。 ---平均值 MATLAB计算cophenet相关系数命令: d=pdist(X, distance) %计算样品距离向量d z=linkage(d, method) %计算类间距离 R=cophenet(z, d) %求Z和d的cophenet相关系数 [R,copd]=cophenet(z, d) 输入d是样品之间的某种距离,z 是用某种类间距离linkage后的结果. 输出R为cophene相关系数,copd为cophene距离向量. 判断:R越接近于1,聚类效果越好。 表6.1 5省(区、市)城镇居民人均家庭收入 例6.4.1 2008年我国5省、区、市城镇居民人均年家庭 收入如下表 为了研究上述5个省、区、市的城镇居民收入差异,进行谱系聚类时,选用哪种类间距离好? 解:以样品间的距离为欧氏距离为例,考虑类间的五种不同距离: 最短距离: z1= linkage(d) 最长距离: z2= linkage(d,'complete') 类平均距离:z3= linkage(d,'average') 重心距离: z4= linkage(d,'centroid') 离差平方和:z5= linkage(d,'ward') 其中d=pdist(x), x为原始矩阵. 程序: x=[18738.96 778.36 452.75 7707.87 21791.11 1399.14 369.12 6199.77 9302.38 959.43 293.92 3603.72 8354.63 638.76 65.33 2610.61 9422.22 938.15 141.75 1976.49]; d=pdist(x); %计算出各行之间的欧氏距离 z1= linkage(d) %最短距离法系统聚类 z2= linkage(d,'complete') %最长距离 z3= linkage(d,'average') %类平均距离 z4= linkage(d,'centroid') %重心距离 z5= linkage(d,'ward') %离差平方和 R=[cophenet(z1,d),cophenet(z2,d),cophenet(

文档评论(0)

178****4446 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档