《R语言与应用统计分析实验指导》实验13(聚类分析).pptx

《R语言与应用统计分析实验指导》实验13(聚类分析).pptx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第七章多元统计分析实验13聚类分析及R语言实现

13.1实验目的13.2实验原理13.3实验过程目录

1. 熟练掌握使用R进行聚类分析;2. 会使用相应的方法处理实际问题。13.1实验目的

采用谱系聚类方法,首先视各种样品自成一类,然后把最相似(距离最小或相似系数最大)的样品聚为小类,再将已聚合的小类按其相似性再聚合,随着相似性的减弱,最后将一切兹雷都聚合成一个大类,从而得到一个按相似性大小聚合起来的一个谱系图。(一)谱系聚类方法13.2实验原理

?

首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。(二)k-means聚类方法

聚类分析概念聚类分析(clusteranalysis)是把研究对象(样本或变量)分组成为由类似的对象组成多个类的一种统计方法。聚类结果一般在4-6类,不易太多,或太少。聚类分析的目的聚类分析目的在于将相似的事物归类,同一类中的个体有较大的相似性,不同类的个体差异性很大。13.3实验过程

聚类统计量两个个体间(或变量间)的对应程度或联系紧密程度的度量可以用两种方式来测量:采用描述个体对(变量对)之间的接近程度的指标,例如“距离”,“距离”越小的个体(变量)越具有相似性;采用表示相似程度的指标,例如“相关系数”,“相关系数”越大的个体(变量)越具有相似性。聚类分析的方法聚类分析方法包括:系统聚类法、动态聚类法、有序样本聚类法和模糊聚类法等等。

系统聚类函数hclust()的用法hclust(d,method=complete,members=NULL)d:由dist()函数产生的对象,即距离method:系统聚类的方法members:或者为NULL(默认值),或者为与d有相同变量长度的向量

x:hclust()函数生成的对象labels:树叶的标记,默认值为NULLhang:数值,表明谱系图中各类所在的位置,默认值为0.1,取负值表示谱系图中的类从底部画起。建立好聚类模型后,可以用plot()函数或plclust()函数画出谱系图,其中plot()函数的使用格式为:plot(x,labels=NULL,hang=0.1,axes=TRUE,frame.plot=FALSE,ann=TRUE,main=ClusterDendrogram,sub=NULL,xlab=NULL,ylab=Height,...)

例13.1:以R基础包自带的鸢尾花(Iris)数据进行聚类分析。data(iris)attach(iris)iris.hc-hclust(dist(iris[,1:4]))#plot(iris.hc,hang=-1)plclust(iris.hc,labels=FALSE,hang=-1)

查看聚类结果:re-rect.hclust(iris.hc,k=3)iris.id-cutree(iris.hc,3)table(iris.id,Species)

如果要进行动态聚类(如K-means聚类),则可以使用R中的函数kmeans(),其调用格式为:kmeans(x,centers,iter.max=10,nstart=1,algorithm=c(“Hartigan-Wong”,”Lloyd”,”Forgy”,”MacQueen”))x:为数据构成的数值,或可以被强制转换成矩阵的对象(如数值向量或数据框);centers:或者为整数,表示聚类的个数;或者为初始类的聚类中心。当为整数时,将随机产生聚类中心;iter.max:最大迭代次数;默认值为10;nstart:随机集合的个数,当center为聚类的个数时用。algorithm为动态聚类的算法。

例13.2:仍以R基础包自带的鸢尾花(iris)数据进行K-均值聚类分析。library(fpc)data(iris)df-iris[,c(1:4)]set.seed(252964)kmeans-kmeans(na.omit(df),3)plotcluster(na.omit(df),kmeans$cluster)

文档评论(0)

医药前沿 + 关注
实名认证
内容提供者

专业医药相关文档服务

1亿VIP精品文档

相关文档