聚类解析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类解析

合肥学院 2015-2016第二学期 《多元统计分析》课程论文 论文题目 聚类分析 姓 名 陈毅 学 号 1307021036 专 业 数学与应用数学(1) 成 绩 2015.5 聚类分析 摘要:本论文为了研究南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。用南部海洋1970-1985年20个站点的平均每年每月的表面空气温度数据中,所有数据两两数据间距离的平均作为类间距离,使用聚类分析中的最长距离法,运用SAS软件,从而得出相应的数据,分析数据即确定了南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。 关键词:聚类分析 最长距离法 SAS软件 分类 一、聚类分析理论 1、数据的变换方法 (1)中心变换 变换 称为中心化变换。它是一种标准化处理方法,变换后数据的均值为0,而协方差阵不变,即协差阵为 ,其中 。中心化变换是一种方便地计算样本协差阵的变换。 (2)标准化变换 变换 称为标准化变换,变换后的数据,每个变量的样本均值为0,标准差为1,而且标准化变换后的数据 与变量的量纲无关。 (3)对数变换 变换 称为对数变换,它可将具有指数特征的数据结构化为线性数据结构 此外,还有平方根变换,立方根变换等。它们的主要作用是把非线性数据结构变为线性数据结构。 称变换 (4)极差标准化变换 称变换 称为极差标准化变换,变换后的数据,每个变量的样本均值为0,极差为1,且 ,在以后的分析计算中可以减少误差的产生;同时变换后的数据也是无量纲的量。 5.极差正规化变换 称变换 为极差正规化变换。变换后的数据 ;极差也为1,同时变换后的数据也是无量纲的量。 2、距离的定义 1.闵科夫斯基(Minkowski)距离 称 为闵科夫斯基距离。 (1)绝对值距离:在上式中,当q=1时的一阶闵科夫斯基距离为 称它为绝对值距离。 (2)欧氏距离:取 ,就可以得到二阶闵科夫斯基距离为 称它为欧氏距离。 3、系统聚类法的思想 (1)定义样品间的距离(或相似系数)和类与类之间的距离; (2)将n个样品各自自成一类,这时类间的距离与样品间的距离是等价的; (3)然后将距离最近的两类合并,并计算新类与其他的类间距离,再按最小距离准则并类。这样每次缩小一类,直到所有的样品都成一类为止。这个并类过程可以用谱系聚类图形像地表达出来 4、系统聚类的步骤 (1)数据变换:可以使用上节介绍的方法对数据进行变换。数据变换目的是为了便于比较、计算上的方便或改变数据的结构。选择试题样品间距离的定义(如欧氏距离)及度量类间距离的定义。 (2)计算n个样品两两间的距离,得样品间的距离矩阵 。 (3)一开始n样品各自构成一类,类的个数 个类: ,此时类间距离就是样品间的距离(即 )然后对步骤 执行并类过程(4)和(5). (4)每次合并类间距离最小的两类为一新类,此时类的总个数k减少到1类,即 。 (5)计算新类与其他类的距离,得到新的距离矩阵,若合并后类的总个数k仍大于1,重复(4)和(5)步,直到类的总个数为1为止。 (6)画谱系聚类图。 (7)决定分类的个数及各类的成员。 二、问题提出与分析 现有南部海洋1970-1985年20个站点的平均每年每月的表面空气温度数据,请用聚类分析研究南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。数据资料如下表所示: 观测站点 一月 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月 坎贝尔岛 9.5 9.7 9.1 8.0 7.1 4.9 5.9 5.8 4.8 6.5 7.5 9.1 Leeuwin 19.9 20.0 19.0 17.5 15.8 14.9 13.9 12.8 12.9 14.1 15.0 17.5 开普敦 19.6 20.8 16.1 18.9 13.9 11.8 11.1 11.5 12.0 15.9 17.4 20.9 查塔姆岛 13.3 14.8 13.6 12.0 10.9 9.4 7.5 8.9 9.6 10.2 12.3 12.8 克罗泽 10.6 11.2 8.6 6.6 4.7 3.9 3.1 2.9 2.6 3.7 4.8 6.0 戈夫岛 14.0 14.0 12.7 12.8 10.9 9.3 9.1 9.2 9.2 10.1 12.3 14.5 格瑞特威肯 4.9 5.7 4.9 2.8 -0.4 -0.8 -2.5 0.1 1.5

文档评论(0)

静待花开 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档