主成分与因子分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析 一、分类 俗语说,物以类聚、人以群分。 当有一个分类指标时,分类比较容易。 但是当有多个指标,要进行分类就不是很容易了。 比如,要想把屮国的县分成若干类,可以按照自然条件来分:考虑降水、土地、 H照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标。 聚类分析概述 聚类分析概述 由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方 法,因为这样会忽视相对重要程度的问题。 所以需要进行多元分类,即聚类分析。 最早的聚类分析是由考古学家在对考古分类屮研究屮发展起来的,同吋乂应用于 昆虫的分类屮,此后又广泛地应用在天气、生物等方面。 对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据屮的列分类), 也可以对观测值(事件,样品)来分类(相当于对数据屮的行分类)。 对变量的聚类称为R型聚类,血对观测值聚类称为Q型聚类。这两种聚类在数 学上是对称的,没有什么不同。 三、聚类中选择变量的要求 和聚类分析的H标密切和关 反映了要分类对象的特征 变量之间不应该高度相关。 如何聚类? 聚类分析就是要找出具有相近程度的点或类聚为一类; 如何衡量这个“相近程度” ?就是要根据“距离”来确定。 这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距离、 马氏距离…,相似系数也可看作为距离。 第一节距离和相似系数 一、距离什么是距离?xuX21X|2X22 一、距离 什么是距离? xuX21 X|2X22 Xnl Xn2 Xlp X.2p ,即x ={xj ■X叩 nxp 设:%表示第i个样品与第/个样品之间的距离 首先我们看样本数据:一般满足以下四个条件时,就称为聚类: d,0.对一切i,j; d”=0,等价于j =丿; 4=切对一切i,j; d.. dik + 仏,对一切j, ko P4j(q) = (工 P4j(q) = (工 Kk k=l Minkowski 距离 当 q=l 吋:dij(l) = ^|xik -xjk,称为绝对距离(Block) k=l 当q=2吋: 当q=2吋: dij(2) =(£|xik-Xj』)% k=l 称为欧氏距离(Eudidem) 当q=8吋:dij(oo) = maxxik -xkj,称为切比雪夫距离 明氏距离的缺点 距离的大小与各指标的观测单位有关,具有一定的人为性。 例如:对体重和身高进行测量,采川不同单位,其距离测量的结果不同。以欧氏 距离为例。 d】2(2) = {(西一尹了+⑺? 一尹2) (o, 10) 当长度=cm时: dAB = J(o-io)2+(i-o)2 = Vioi dCD = J(0-5尸+(10-0)2 =亦 ? ? ^AB V dcD 当长度时: dAR = J(0 -100)2 + (1 - OF = Joo。] dCD = J(0-50)2+(10-0)2 = J26OO ^AB dcD 改进的方法:对数据进行标准化,然后再计算距离。 另一个缺点:它没有考虑到指标之间的相关性。 改进的方法是:采用马氏距离 马氏距离是1936年由印度数学家:马哈拉比斯由协方差矩阵计算构造的距离。 djj=(Xi—Xj)UXi—XJ 二、相似系数 夹角余弦一cosine 尽管图小AB和CD长度不一样,但形状相似。当长度不是主要才盾时,就可利 用夹角余弦这样的相似系数。 相关系数 也可用相关系数来刻画样品之间的相似关系。 把两两样品的相关系数都计算出来,可形成样品相关系数矩阵。 三、关联测度 主要用来度量聚类变量为分类变量的研究对彖的相似性。 简单匹配系数:是测度二分类变量的,是度量两个案例在所有的聚类变量上答案 相同的情况出现的频率。 雅科比系数:是在简单匹配系数基础上进行的改进,也是度量二分类变量的。 第二节系统聚类法 系统聚类法的步』釆用系统聚类法根据实际情况,确定类和类的个数 系统聚类法的步』 釆用系统聚类法 根据实际情况,确定类和类的个数 二、系统聚类法 1.最短距离法 Nearest Neighbor Dpq =min6/(x/?xy) G1 G2 G3 G4 G5 G6 G3 G4 G5 G1 0 G6 0 G2 1 0 1——r 、G3 1.5 0 G3 2.5 1.5 0 戶G4 5 3.5 0 G4 6 5 3.5 0 G5 7 3.5 3.5 0 G5 8 7 5.5 2 0 2.最长距离法- Furthest Neighbor Dpq = max d(兀 宀) G1 G2 G3 G4 G5 G6 G3 G4 G5 G1 0 G6 0 G2 1 0 1—— 、G3 2.5 0 G3 2.5 1.5 0 k 戶G4 6 3.5 0 G4 6 5 3.5 0 G5 8 3.5 3.5 0 G5 7 5.5 2

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档