Cht11聚类分析1.ppt

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Cht11聚类分析1

第一步,X4与X7被合并,它们之间的相关系数最大; 第二步,X3与X2合并 第三步,X6与第二步的合并项被合并; 第四步,它们与第一步的合并项再合并; 第五步,与最后一个变量X5合并,这个相关系数最小,为-0.054485。? 冰柱图: 从上往下进行 过程图 微量元素钙、镁、铁、铜和血红蛋白聚合成一类,在这5个指标中如何选择一个典型指标呢?先按下式计算类中每一变量与其余变量的相关指数(即相关系数的平方)的均值,而后把该值最大的变量作为典型指标 故选择镁(变量X2)典型指标。 Hierarchical Cluster过程 主要功能 实例操作 K-Means Cluster过程 主要功能 实例操作 大样本的观察值聚类法 本聚类法是基于欧几里得距离的分离聚类法,它面向观察值(OBS)将每个OBS分配给最靠近的聚类中,每个OBS只属于某一聚类。形成一个新聚后再用新聚类的均值替换旧聚类的中心点。反复迭代,直到不能减少各自中心点的“离差”和为止。 它适宜做大数据量的聚类分析,可分析100-10万个观察值。它利用标准迭代法计算类的平均值之间的最小平方和。 FASTCLUS过程将显示主要聚类结果,还可根据需要输出一个聚类成员及其变量,但它不像CLUSTER那样形成树形结构图。 K-Means Cluster过程 主要功能 调用此过程可完成由用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类 激活Statistics菜单选Classify中的K-Means Cluster...项,弹出K-Means Cluster Analysis对话框。 从对话框左侧的变量列表中选x1、x2、x3、x4,点击?钮使之进入Variables框; 在Number of Clusters(即聚类分析的类别数)处输入需要聚合的组数,本例为4; 在聚类方法上有两种:Iterate and classify指先定初始类别中心点(对类中心有个调整?),而后按K-means算法作叠代分类,Classify only指仅按初始类别中心点分类,本例选用前一方法 为研究儿童生长发育的分期,调查1253名1月至7岁儿童的身高(cm)、体重(kg)、胸围(cm)和坐高(cm)资料。 资料作如下整理:先把1月至7岁划成19个月份段,分月份算出各指标的平均值,将第1月的各指标平均值与出生时的各指标平均值比较,求出月平均增长率(%),然后第2月起的各月份指标平均值均与前一月比较,亦求出月平均增长率(%)。 欲将儿童生长发育分为四期,故指定聚类的类别数为4,请通过聚类分析确定四个儿童生长发育期的起止区间。 为在原始数据库中逐一显示分类结果,点击Save...钮弹出K-Means Cluster:Save New Variables对话框,选择Cluster membership项,点击Continue钮返回K-Means Cluster Analysis对话框。 本例还要求对聚类结果进行方差分析,故点击Options...钮弹出K-Means Cluster:来Options对话框,在Statistics栏中选择ANOVA table项,点击Continue钮返回K-Means Cluster Analysis对话框,再点击OK钮即完成分析。 首先系统根据用户的指定,按4类聚合确定初始聚类的各变量中心点,未经K-means算法叠代,其类别间距离并非最优;经叠代运算后类别间各变量中心值得到修正。 之后对聚类结果的类别间距离进行方差分析,方差分析表明,类别间距离差异的概率值均0.001,即聚类效果好。这样,原有19类(即原有的19个月份分组)聚合成4类,第一类含原有1类,第二类含原有1类,第三类含原有2类,第四类含原有15类。具体结果系统以变量名QCL_1存于原始数据库中。 在原始数据库中,我们可清楚地看到聚类结果;参照专业知识,将儿童生长发育分期定为: 第一期,出生后至满月,增长率最高; 第二期,第2个月起至第3个月,增长率次之; 第三期,第3个月起至第8个月,增长率减缓; 第四期,第8个月后,增长率显著减缓。 ? Hierachical Cluster analysis K-Means analysis 观察值数量太多,冰柱图(Icecle plots)和树状突(Dendrograms)呈现的过于分散,不易令人阅读与理解,多要用K方法。 但K方法需要定义事前集群数目,进行分析次数可能较为多次,可运用全体观察值中的部分数据进行H法,作为集群数目的参考值。而观察值不多的情况下,则采用H法。 第11章 聚类分析 一、绪言 1.1 多元统计分析 多元统计分析是统计学的一个重要

文档评论(0)

骨干 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档