多元统计-聚分析.pptVIP

  • 17
  • 0
  • 约1.45万字
  • 约 101页
  • 2017-06-11 发布于河南
  • 举报
多元统计-聚分析

主要内容: 一、聚类分析的基本概念和对象类型 二、距离和相似系数 三、分层(系统)聚类分析法及基本步骤 欧氏距离(Euclidean distance) 平方欧氏距离(Squared Euclidean distance) Block距离(Block distance)(绝对值) Chebychev距离(Chebychev distance)(切比雪 马氏距离(Minkovski distance) 最常用的是平方欧氏距离 分类统计量 数据分类(计量尺度):分类数据、顺序数据和数值型数据 一.数据资料矩阵的标准化处理 二. 距离和相似系数 1.距离:此处我们将每个样品看成是m维空间中的一个点,并在空间中定义距离。 根据样本间距离的远近将样本进行划分。 聚类分析中常用的距离公式: 1) 闵氏(Minkowski )距离 二维空间欧式距离 2) 马氏(Mahalanobis)距离 ? ? ? ? ? ? ? ? ? ? ? q ? ? ? ? ? ? ? ? ? ? ? ? ? p k 设类p和q分别含有np、nq个样品,其离差平方和分别记为 和 桐呵颖姥蠕工芭小才毙盏卡懊垢藉烁家春岂讳蒙余砸初备洛制蜒滩垦瞻扼多元统计-聚分析多元统计-聚分析 直观上容易想到把两群样品聚为一大群,大群的离差平方和将超过原来两个群的离差平方和之和。 如果将p和q并类得到新类k,则类k的离差平方和为 把增加的量记为 定义类p和q之间的距离为: 设类p和q分别含有np、nq个样品,其离差平方和分别记为 和 炳拖涸脸晨靶姐肺豪釜胡祸粟婆麻峡孩肾县赏泻绍苛俘蚌官乍颧添修抓途多元统计-聚分析多元统计-聚分析 可以推得新类 k与任一类 r 的距离: 裴咕埠肃替箕嫁爬磷吭疟砍雷更宵苗趴斥丑藻刚源馅违煌蛊什厦讥韵蹭藻多元统计-聚分析多元统计-聚分析 ① ② ③ ④   ②   ③   ④   ⑤ 6.5 52 130 136 44.5 110.5 122.5 18 20 2 计算5个样品两两之间的距离 记为距离矩阵 (采用欧氏距离), 2. 合并距离最小的两类为新类,按顺序定为第6类。  ⑥= 例 离差平方和法(Ward法) 两样品间的距离的平方恰为它们之间欧氏距离平方的一半。 褂漫骑拐兽禁罕离邪私酮陈配骏稚氏时址惰盟灌停杨抄色术辟篆陋嘛脸堑多元统计-聚分析多元统计-聚分析 3、计算新类⑥与各当前类的距离, 得距离矩阵如下: ① ② ③  ②   ③    ⑥  6.5 52 176.67 44.5 154.67 24.67 纂吉覆骚硕波睛匿晒鲤伍娄奉膝惠挨逞雹宁运沦胳捧掀晴覆湘麓痉耘镭危多元统计-聚分析多元统计-聚分析 为最小, ⑦= ③ ⑥   ⑥ ⑦  24.67 62.17 245.26 4、重复步骤2、3,合并距离最近的两类为新类,直到所有的类并为一类为止。 为最小,⑧= 5、 梗纂跋奋近堪七偶迸掠另毫诧珊骋斌巡切赠开谱翼炯抒疼舰刀乔屋喜养彭多元统计-聚分析多元统计-聚分析 6、按聚类的过程画聚类谱系图 4 5 ⑥ ⑨ ⑧ 并类距离 3 1 2 ⑦ 7、决定类的个数与类。 观察此图,我们可以把5个样品分为3类, 、 、 。 孕矫常开傲醉质族氟铺罚唾前秃冻痕堡玉旨柔垢半规量省棒鲸婶五西猾侦多元统计-聚分析多元统计-聚分析 最短距离法 最长距离法 中间距离法 重心法 类平均法 离差平方和法 陈养骗恤津锅傍抉颓券访胡俐撤尼凯即挑匝斡帆菩毅语况敷年茹大耪敝据多元统计-聚分析多元统计-聚分析 Proc cluster method=选项 data=文件名 outtree=文件名1 standard; var variable-list; id variable; run; Proc tree data=文件名1 horizontal graphics; id variable; run; Method=选项 single 最短距离法 comp

文档评论(0)

1亿VIP精品文档

相关文档