网站大量收购独家精品文档,联系QQ:2885784924

实用SAS统计分析教程Ch16.pdf

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
该文档主要是介绍使用聚类分析方法进行数据分析聚类是一种常用的数据处理技术,它可以通过将相似的人或事物归类到不同的组中,从而达到对大量数据的整理和分析的目的文章介绍了聚类的基本原则和应用方法,强调了在实际工作中,需要根据具体的问题和数据类型选择合适的聚类方法同时,还介绍了聚类分析的应用场景和注意事项

阮敬博⼠

⾸都经济贸易⼤学研究⽣院副院⻓

⾸都经济贸易⼤学统计学院教授

©ruanjing@

聚类分析

•“物以类聚、⼈以群分”往往被⼈们视为⾃然的法则。正是由于不同现象之间客观存在的共

性,使得⼤千世界芸芸众⽣有了界限的划分和质的区别,⽽呈现出五花⼋⻔的景象。

•在事物分类思想上最为瞩⽬的是⽣物分类学的发展,这也成为统计分类发展的主要动⼒。

希腊时期亚⾥⼠多德仅描述了500个物种,17世纪后,⼈们知道约6000种植物,⽽仅

仅100年后,植物学家⼜发现了12000个新种。对⽣物物种进⾏科学的分类变得极为迫

切。因此有了林奈把⾃然界分为3界:即动物界、植物界和矿物界,并提出了纲、⽬、

属、种的分类概念,⼈们可以依照各⻔类物种的典型特征,把新发现的物种归类⾄现有的

⻔类当中。

•近代统计分析中的聚类和判别分析受到了⽣物分类学的影响,现实⽣活中需要对复杂的对

象依据⼀定的标准进⾏分类,有了既定的类别之后,还可涉及到对事物进⾏归类。因⽽有

了本章所要介绍的聚类分析及下⼀章将要介绍的判别分析。

聚类分析的基本原理

•⼈们根据事物现象的⼀个指标或某⼀个⽅⾯,可以很容易进⾏分类活动。如按照收⼊指标把全社会⼈

群划分为⾼、中、低3类,学⽣考试成绩划分为及格、不及格两类等。在进⾏归类时,只需考查新加

⼊的对象在某个指标上的表现是否符合特定类别即可。

•实际上,需考察的事物或对象往往不是单⼀指标这么简单,很可能是通过许多侧⾯或许多指标来进⾏

综合考察。如按照经济发展、教育⽔平、⾯积⼤⼩、⼈⼝等诸多⽅⾯对我国地市级以上城市进⾏分

类;学⽣凭考试成绩、社会实践、思想品德等⽅⾯划分奖学⾦的等级等。这些指标在反映事物特征

的作⽤、量纲、紧密关系等⽅⾯可能有所不同,因此很难再按照单⼀指标分类的原则进⾏分类和归类

了,需要考虑多元统计分析的⽅法进⾏分类和归类。

•多元统计分析中的聚类分析⽅法(ClusteringAnalysis)既可以对样本进⾏分类(记为Q型分类),

也可以对反映事物特征的指标或变量(记为R型分类)进⾏分类。两种分类是对等的,在算法上没有

任何区别,本书主要以Q型分类为例进⾏详细讲解,在第16.2.3⼩节中对R型分类进⾏简单介绍。

•“近朱者⾚,近墨者⿊”。⼈们往往可根据事物之间的距离远近或相似程度来判定类别。个体与个体

之间的距离越近,其相似性可能也越⼤,是同类的可能性越⼤,聚在⼀起形成类别的可能性也就越⼤。

因此就有了聚类分析的基本原则。

聚类分析的基本原则

•⾸先考虑在没有进⾏聚类之前,所有参加聚类过程的个体没有归⼊任何类别,即对于每个个体⽽⾔,其独树⼀

帜,⾃成⼀类。

•有了⼀定的分类原则之后,⼈们可以根据个体与个体之间的距离⼤⼩或⻓短进⾏聚类。如⾸先把最近的个体聚为

同类,然后再根据最短距离继续扩⼤类别所涵盖的范围,直到所有个体都聚为1个⼤类为⽌。整个聚类过程就

如同⽣活在地球上的⼈⼀样,⾸先每个⼈都是⾃成⼀类,然后有了⼈种的区分,最后所有⼈都可以归集到“⼈类”

这个类别当中,即所有⼈都是⼀类。在数据分析过程中,⼈们通常把类似上述的聚类过程称之为“系统聚类”。

•⽽聚类过程所依据的距离主要有明⽒距离、⻢⽒距离等⼏⼤类。那么究竟什么是距离呢?设样本数据可以⽤如下

矩阵形式表示:

聚类分析的基本原则

聚类分析的基本原则

聚类分析的基本原则

•除了最短距离原则进⾏分类之外,还可以采⽤相关系数、相似系数、匹配系数等指标来衡

量个体之间的相似性,以此为依据进⾏分类。在分类的过程当中,为了便于分析,还应当

注意如下3个重要原则:

同质性原则:即同⼀类中的个体之间有较⼤的相似性;

互斥性原则:即不同类中的个体差异很⼤;

完备性原则:每个个体在同⼀次分类过程中,能且只能分在⼀个类别当中。

•同质性原则保证了类别之内个体特征的共性;互斥性原则保证了类别之间的差异性;⽽完

备性原则则说

文档评论(0)

医药前沿 + 关注
实名认证
内容提供者

专业医药相关文档服务

1亿VIP精品文档

相关文档