数学建模R-聚类分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析 聚类分析:一类将数据所对应的研究对象进行 分类的统计方法。 特点: 1.事先不知道类别的个数与结构; 2.进行分析的数据是对象间的相似性或相异性(距离); 3.将距离近的对象归入一类。 根据分类对象不同分为: Q型聚类:对样本进行聚类 R型聚类:对变量进行聚类 根据聚类方法主要分为: 系统聚类法 动态聚类法 距离 聚类分析中常用距离 Minkowski距离: m=1, Minkowski?绝对距离 m=2, Minkowski?欧式距离 m= , Minkowski ?Chebyshev距离,即 其中 是p维列向量 R中语句: dist(x,method=“euclidean”, diag=FALSE, upper=FALSE, p=2) method: 计算距离的方法 “euclidean”: 欧式距离 “maximum”: Chebyshev距离 “manhattan”: 绝对值距离 “minkowski”: Minkowski距离,p是Minkowski距离的 阶数 diag=TRUE: 输出对角线上的距离 upper=TRUE: 输出上三角矩阵的值(默认值仅输出下 三角矩阵的值) 当指标的测量值相差悬殊时,应先对数据进行 标准化处理,再利用标准化的数据计算距离。 常用标准化方法: 1.普通标准化变换 i=1,2,…n表示第i个样本,j=1,2,…p表示样本的 第j个指标,每个样本均有p个观测指标。 是第j个 指标的样本均值 2.极差标准化变换 其中 3.极差正规化变换 R中语句: 1.数据的中心化和标准化处理 scale(x, center=TRUE, scale=TRUE) x:样本数据矩阵,center=TRUE表示对数据作中心化变换, scale=TRUE表示对数据作标准化变换。 2.数据作极差标准化处理 center-sweep(x, 2, apply(x, 2, min)) R-apply(x, 2, max) - apply(x,2,min) x_star-sweep(center, 2, R, /) 若x_star-sweep(center, 2, sd(x), /), 则得到(普通)标准化变换后的数据; 类似可利用sweep()函数写出极差正规化变换的 语句,见《统计建模与R软件》 相似系数 1.相关系数:计算样本不同指标间的相关系数,适用于对变量进行聚类。 2. 夹角余弦 系统聚类法 1.聚类分析方法中最常用 2.基本思想 (1)视各样本(或变量)自成一类,规定类与类之间的距离(或相似系数); (2)把最相似的样本(或变量)聚为小类,再将已聚合的小类按相似性再聚合; (3)最后将一切子类都聚合到一个大类,从而得到一个按相似性大小聚集起来的谱系关系 3.根据距离定义的不同分为 (1)最短距离法 类与类之间的距离定义为两类中最近样本间的距离; (2)最长距离法 类与类之间的距离定义为两类中最远样本间的距离; (3)类平均法 类与类之间的距离定义为两类中两两样本间距离的平 均数; 系统聚类的R软件计算 hclust():进行系统聚类的计算 plot():画出系统聚类的树形图 hclust(d, method = complete) d:dist构成的距离结构, method:系统聚类的方法(默认为最长距离法),其 参数有: (1)“single”:最短距离法 (2)“complete”:最长距离法 (3)“average”:类平均法 …… plot(x, labels = NULL, hang = 0.1, main = Cluster Dendrogram, sub = NULL, xlab = NULL, ylab = Height, ...) x: hclust()函数生成的对象 hang: 表明树形图中各类的位置,取负值表示 树形图中的类从底部画起 main: 绘图名称 plclust(x, hang=0.1, labels=NULL, axes = TRUE, main = , sub = NULL, xlab=NULL, ylab=Height…) x: hclust()函数生成的对象 hang: 表明树形图中各类的位置,取负值表示 树形图中的类从底部画起 main: 绘图名称 利用R软件聚类 eg8. x-c(1,2,6,8,11); dim(x)-c(5,1); d-dist(x) #生成距离结构 hc1-hclust(d, single); hc2-hclust(d, complete) hc3-hclust(d, median); hc4-hc

文档评论(0)

today-is-pqsczlx + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档