《R语言与应用统计分析实验指导》实验13（聚类分析）.pptx

下载文档

0
0
约1.91千字
约 14页
2024-08-09 发布于浙江
举报
版权申诉
保障服务

《R语言与应用统计分析实验指导》实验13（聚类分析）.pptx

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第七章多元统计分析实验13聚类分析及R语言实现

13.1实验目的13.2实验原理13.3实验过程目录

1. 熟练掌握使用R进行聚类分析；2. 会使用相应的方法处理实际问题。13.1实验目的

采用谱系聚类方法，首先视各种样品自成一类，然后把最相似(距离最小或相似系数最大)的样品聚为小类，再将已聚合的小类按其相似性再聚合，随着相似性的减弱，最后将一切兹雷都聚合成一个大类，从而得到一个按相似性大小聚合起来的一个谱系图。（一）谱系聚类方法13.2实验原理

首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类；然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值)；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。（二）k-means聚类方法

聚类分析概念聚类分析(clusteranalysis)是把研究对象(样本或变量)分组成为由类似的对象组成多个类的一种统计方法。聚类结果一般在4-6类，不易太多，或太少。聚类分析的目的聚类分析目的在于将相似的事物归类，同一类中的个体有较大的相似性，不同类的个体差异性很大。13.3实验过程

聚类统计量两个个体间(或变量间)的对应程度或联系紧密程度的度量可以用两种方式来测量：采用描述个体对(变量对)之间的接近程度的指标，例如“距离”，“距离”越小的个体(变量)越具有相似性；采用表示相似程度的指标，例如“相关系数”，“相关系数”越大的个体(变量)越具有相似性。聚类分析的方法聚类分析方法包括：系统聚类法、动态聚类法、有序样本聚类法和模糊聚类法等等。

系统聚类函数hclust()的用法hclust(d,method=complete,members=NULL)d：由dist()函数产生的对象，即距离method：系统聚类的方法members：或者为NULL(默认值)，或者为与d有相同变量长度的向量

x：hclust()函数生成的对象labels：树叶的标记，默认值为NULLhang：数值，表明谱系图中各类所在的位置，默认值为0.1，取负值表示谱系图中的类从底部画起。建立好聚类模型后，可以用plot()函数或plclust()函数画出谱系图，其中plot()函数的使用格式为：plot(x,labels=NULL,hang=0.1,axes=TRUE,frame.plot=FALSE,ann=TRUE,main=ClusterDendrogram,sub=NULL,xlab=NULL,ylab=Height,...)

例13.1：以R基础包自带的鸢尾花(Iris)数据进行聚类分析。data(iris)attach(iris)iris.hc-hclust(dist(iris[,1:4]))#plot(iris.hc,hang=-1)plclust(iris.hc,labels=FALSE,hang=-1)

查看聚类结果：re-rect.hclust(iris.hc,k=3)iris.id-cutree(iris.hc,3)table(iris.id,Species)

如果要进行动态聚类(如K-means聚类)，则可以使用R中的函数kmeans()，其调用格式为：kmeans(x,centers,iter.max=10,nstart=1,algorithm=c(“Hartigan-Wong”,”Lloyd”,”Forgy”,”MacQueen”))x：为数据构成的数值，或可以被强制转换成矩阵的对象(如数值向量或数据框)；centers：或者为整数，表示聚类的个数；或者为初始类的聚类中心。当为整数时，将随机产生聚类中心；iter.max：最大迭代次数；默认值为10；nstart：随机集合的个数，当center为聚类的个数时用。algorithm为动态聚类的算法。

例13.2：仍以R基础包自带的鸢尾花(iris)数据进行K-均值聚类分析。library(fpc)data(iris)df-iris[,c(1:4)]set.seed(252964)kmeans-kmeans(na.omit(df),3)plotcluster(na.omit(df),kmeans$cluster)