网站大量收购独家精品文档,联系QQ:2885784924

多元统计分析讲义(第二章).docVIP

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多元统计分析讲义(第二章) 多元统计分析讲义(第二章) PAGE 0 PAGEPAGE 14 第 页 多元统计分析讲义(第二章) 注意电子文档使用范围 MACROBUTTON MTEditEquationSection2 Equation Chapter 1 Section 1 SEQ MTEqn \r \h SEQ MTSec \r 1 \h SEQ MTChap \r 1 \h 注意电子文档使用范围 《多 元 统 计 分 析》 Multivariate Statistical Analysis 主讲:统计学院 许启发() 统计学院应用统计学教研室 School 2004年9月 第二章 聚类分析 【教学目的】 让学生了解聚类分析的背景、基本思想; 掌握聚类分析的基本原理与方法; 掌握聚类分析的操作步骤和基本过程; 学会应用聚类分析解决实际问题。 【教学重点】 分类的统计量; 各种聚类分析方法的阐述。 §1 概述 什么是聚类分析 1.研究背景 在实际问题中,经常要遇到分类的问题。例如,在考古学中,要将某些古生物化石进行科学的分类;在生物学中,要根据各生物体的综合特征进行分类;在经济学中,为了研究不同地区城镇居民的收入及消费情况,往往需要划分为不同的类型去研究;在产品质量管理中,也要根据各产品的某些重要指标而将其分为一等品,二等品等等。总之,科学的分类方法无论在自然科学,还是在社会科学中,都有着极其广泛的应用。 俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。 随着人类社会的发展与科学技术的进步,对分类学的要求也越来越高。有时,只凭经验和专业知识还不能进行科学有效的分类,于是数学这一有力的工具被逐渐引入到分类学中,形成了一门新兴的学科——数值分类学。后来,随着多元分析方法的引进,从数值分析学中逐渐分离出了聚类分析这个分支。 对于一个数据,人们既可以按照观测值对变量(或指标)进行分类(相当于对数据中的列分类),也可以按照变量对观测值(事件,样品)来分类(相当于对数据中的行分类)。比如利用学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类。当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。本章要介绍的分类的方法称为聚类分析(cluster analysis)。有人称按照观测值对变量的分类为R型聚类,而称按照变量对观测值的分类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。 聚类分析就是一种分类方法,它将一批样品、变量(或指标),按照它们在性质上相似、疏远程度进行科学的分类。而度量相似或疏远程度常有两种指标:距离和相似系数。 2.基本思想 哲学理念:物以类聚、人以群分 聚类分析的基本思想是,从一批样品的多个指标变量中,定义能度量样品间或变量间相似程度(或亲疏关系)的统计量,在此基础上求出各样品(或变量)之间的相似程度度量值,按相似程度的大小,把样品(或变量)逐一分类,关系密切的类聚集到一个小的分类单位,关系疏远的类聚集到一个大的分类单位,直到所有的样品或变量都聚集完毕,把不同的类型一一划分出来,形成一个亲疏关系谱系图,用以更直观地显示分类对象(样品或变量)的差异和联系。 一开始将要归类的个变量(或个体)各自看成一类,然后按事先规定好的方法计算各类之间的归类指标(如某种距离或相似系数),根据指标值大小衡量两两之间关系的密切程度,将关系最密切的两类并成一类,其余不变,即得类;又按事先规定的方法重新计算各类之间的归类指标(仍为某种距离或相似系数),又将关系密切的两类并成一类,其余不变,即得类;如此进行下去,每次归类都减少一类,直到最后,个变量(或个体)都归成一类为止。这一归类过程可以用一张聚类图(或称谱系图)形象地表示出来,由谱系图来进行分类。可以看到,这种系统归类过程,显然与计算类与类之间的归类指标是什么有关系,同时也与归类的方法有关系。 聚类分析方法 值得一提的是聚类分析和第三章的判别分析都是研究分类问题,但二者有本质的区别。聚类分析一般上寻求客观分类的方法,事先对总体到底有几种类型无所知晓,而判别分析则是在总体类型划分已知,在各总体分布或来自各总体训练样本的基础上,对当前的新样品用统计的方法判定它们属于哪个总体。 聚类分析的历史还很短,由于在其发展过程中首先是着重于实用,因此相对而言理论上还不够完善。无论聚类统计量还是聚类的方法,都还未最终定型。目前,聚类统计量种类繁多,聚类方法也五花八门,但由于聚类分析方法能广泛地应用于解决实际问题,它和

文档评论(0)

认真对待 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体惠州市峰海网络信息科技有限公司
IP属地广东
统一社会信用代码/组织机构代码
91441300MA54K6GY5Y

1亿VIP精品文档

相关文档