数学建模R-聚类分析.pptVIP

下载本文档

41
0
约3.24千字
约 22页
2020-03-18 发布于山东
举报
版权申诉

数学建模R-聚类分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类分析聚类分析：一类将数据所对应的研究对象进行分类的统计方法。特点： 1.事先不知道类别的个数与结构； 2.进行分析的数据是对象间的相似性或相异性（距离）； 3.将距离近的对象归入一类。根据分类对象不同分为： Q型聚类：对样本进行聚类 R型聚类：对变量进行聚类根据聚类方法主要分为：系统聚类法动态聚类法距离聚类分析中常用距离 Minkowski距离： m=1, Minkowski?绝对距离 m=2, Minkowski?欧式距离 m= , Minkowski ?Chebyshev距离，即其中是p维列向量 R中语句： dist(x,method=“euclidean”, diag=FALSE, upper=FALSE, p=2) method: 计算距离的方法 “euclidean”: 欧式距离 “maximum”: Chebyshev距离 “manhattan”: 绝对值距离 “minkowski”: Minkowski距离，p是Minkowski距离的阶数 diag=TRUE: 输出对角线上的距离 upper=TRUE: 输出上三角矩阵的值（默认值仅输出下三角矩阵的值）当指标的测量值相差悬殊时，应先对数据进行标准化处理，再利用标准化的数据计算距离。常用标准化方法： 1.普通标准化变换 i=1,2,…n表示第i个样本，j=1,2,…p表示样本的第j个指标，每个样本均有p个观测指标。是第j个指标的样本均值 2.极差标准化变换其中 3.极差正规化变换 R中语句： 1.数据的中心化和标准化处理 scale(x, center=TRUE, scale=TRUE) x:样本数据矩阵，center=TRUE表示对数据作中心化变换， scale=TRUE表示对数据作标准化变换。 2.数据作极差标准化处理 center-sweep(x, 2, apply(x, 2, min)) R-apply(x, 2, max) - apply(x,2,min) x_star-sweep(center, 2, R, /) 若x_star-sweep(center, 2, sd(x), /), 则得到（普通）标准化变换后的数据；类似可利用sweep()函数写出极差正规化变换的语句，见《统计建模与R软件》相似系数 1.相关系数：计算样本不同指标间的相关系数，适用于对变量进行聚类。 2. 夹角余弦系统聚类法 1.聚类分析方法中最常用 2.基本思想（1）视各样本（或变量）自成一类，规定类与类之间的距离（或相似系数）；（2）把最相似的样本（或变量）聚为小类，再将已聚合的小类按相似性再聚合；（3）最后将一切子类都聚合到一个大类，从而得到一个按相似性大小聚集起来的谱系关系 3.根据距离定义的不同分为（1）最短距离法类与类之间的距离定义为两类中最近样本间的距离；（2）最长距离法类与类之间的距离定义为两类中最远样本间的距离；（3）类平均法类与类之间的距离定义为两类中两两样本间距离的平均数；系统聚类的R软件计算 hclust():进行系统聚类的计算 plot():画出系统聚类的树形图 hclust(d, method = complete) d:dist构成的距离结构， method:系统聚类的方法（默认为最长距离法），其参数有：（1）“single”：最短距离法（2）“complete”：最长距离法（3）“average”：类平均法 …… plot(x, labels = NULL, hang = 0.1, main = Cluster Dendrogram, sub = NULL, xlab = NULL, ylab = Height, ...) x: hclust()函数生成的对象 hang: 表明树形图中各类的位置，取负值表示树形图中的类从底部画起 main: 绘图名称 plclust(x, hang=0.1, labels=NULL, axes = TRUE, main = , sub = NULL, xlab=NULL, ylab=Height…) x: hclust()函数生成的对象 hang: 表明树形图中各类的位置，取负值表示树形图中的类从底部画起 main: 绘图名称利用R软件聚类 eg8. x-c(1,2,6,8,11); dim(x)-c(5,1); d-dist(x) #生成距离结构 hc1-hclust(d, single); hc2-hclust(d, complete) hc3-hclust(d, median); hc4-hc