第三章多元统计分析3.doc

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章多元统计分析3

研究生地理数学方法(1) 第三章 多元统计分析(Part 3) PAGE PAGE 91 多元统计分析 §4 聚类分析 分类是人类认识世界的方式,也是管理世界的有效手段。在科学研究中非常重要,许多科学的研究都是从分类研究出发的。没有分类就没有效率;没有分类,这个世界就没有秩序。瑞典博物学家林奈(Carl von Linnaeus, 1707-1778)因为对植物的分类成就被后人誉为“分类学之父”,后人评价说“上帝创世,林奈分类”——能与上帝的名字并列的人不多,另一个著名的科学家是牛顿。由此可见分类成果的重要性。最初分类都是定性了,后来随着科学的发展产生了定量分类技术,包括基于统计学的聚类方法和基于模糊数学的聚类技巧。本节主要讲述统计学意义的数字分类方法思想和过程。 1 聚类的分类 分类研究的成果的重要性决定了方法的重大实践意义。在任何一门语言的语法学中,都要对词词汇进行分类,词汇分类可以根据词性:名词,动词,形容词……;英文还可以根据首字母分类:ABCD……;汉字则还可以根据笔划,如此等等。在生物学中,将生物划分为:界,门,纲,目,科,属,种。例如白菜(种)属于油菜属、十字花科、十字花目、双子叶植物纲、被子植物亚门、种子植物门、植物界;老虎(种)则属于猫属、猫科、食肉目、哺乳动物纲、脊椎动物亚门、脊索动物门、动物界。这样,整个世界的生物就可以建立一个等级谱系,根据这个谱系,我们可以比较容易地判断那些生物已经认识了,哪些生物尚未发现,哪些生物已经灭绝了。如果发现了新的生物,就可以方便地将其归类。在天文学中,天体可以根据视觉区域分类,也可以根据发光性质与光谱特征进行分类。在地理学中,城市既可以根据地域空间分类,也可以根据城市的职能进行分类。 表3-3-1 各种生物在分类学上的位置举例 位置 白菜 虎 界 植物界 动物界 门 种子植物门 脊索动物门 亚门 被子植物亚门 脊椎动物亚门 纲 双子叶植物纲 哺乳动物纲 目 十字花目 食肉目 科 十字花科 猫科 属 油菜属 猫属 种 白菜 虎 当我们走进一家图书馆,如果它们的图书没有分类编目,我们要找到一本图书与大海捞针没有什么区别。分类的方式也会影响工作的效率。书店的图书一般根据科学门类进行分类摆设,但有一段时间一家书店改为按照出版单位进行分类排列,结果读者很难找到所需图书,这家原本效益挺好的书店很快收到了消极影响。 早期的分类,一般根据事物的属性与特征进行划分,属于定性分类的范畴。随着人们认识的深入和研究对象复杂程度的增加,单纯的定性分类方法就不能满足要求了,于是产生了定量分类技术,即所谓数字分类。本节要讲述的就是根据多个指标进行数字分类的一种多元统计分析技术。根据分类对象的不同,聚类分析又可以分为两类:一是在变量空间中根据变量特征或者指标性质对样本进行分类,这叫做Q型聚类分析;二是在样本空间中根据变量在样本上的观测值对变量进行分类,叫做R型距离分析。我们着重讲述的是对样本分类,即Q型距离分析。此外,由于现实世界的事物很难做到一分为二:许多测度是模糊的,因此产生了模糊聚类技术,基本思路与我们学习的统计分类一致(图3-3-1)。 图3-3-1 关于分类的分类 在地理学中,分类一般涉及到地域,基于地域的分类又可以分为两类,即同域分类和异域分类。一般意义的分类是同域分类:对同一个地域系统的要素进行分类;但有时候需要进行异域分类:对不同地域系统的要素进行分类。具体说明如下: 同域分类: 经济建设与濒危生物保护:例如公路建设,不仅要考虑城市之间以及城乡联系,还要考虑文物保护、濒危物种的保护——主要是保护生物『基因库』。 考察某种濒危物种,调查其生态环境的各种参数(变量)→分区(样本)→绘图→调查→落实→范围确定……→提交给交通部。 异域分类: 引进日本福冈甜桔,可供选择的引进地点有:合肥、武汉、长沙、桂林、温州、成都……。 与甜桔生活有关的分析变量包括:年平均气温,年平均降雨量,年日照时数,年极端最低温,一月份平均气温。 利用上述变量,将日本福冈与候选城市放到一起聚类,就是所谓异域聚类。 人们采用模糊数学中的相似优先比得到如下结果:长沙,温州,成都,武汉,桂林,合肥。我们采用异域聚类得到结果如下图(图3-3-2,由SPSS给出):可以选择的顺序依次是:长沙,成都,温州,桂林,武汉,合肥。可见,两种分析方法的结论是一样的:优先选择的地点是长沙,不宜选择的地点是合肥。 图3-3-2 异域聚类分析结果一例 3-13 基于相似系数的异域聚类结果:长沙,成都,温州,桂林,合肥,武汉 在多元统计学中,聚类分析又叫群分析,乃是研究样本或指标的分类问题的一种多元统计方法。所谓类,通俗地讲,就是相似元素的集合。聚类方法有包括如下种类:系统聚

文档评论(0)

seunk + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档