多元统计分析聚类分析.pptxVIP

  1. 1、本文档共107页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Cluster Analysis ;第一节 什么是聚类分析; 聚类分析也是一种分类技术。是研究“物以类聚”的一种方法。与多元分析的其他方法相比,该方法理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,应用方面取得了很大成功。;举 例;应聘者得分如下;第六页,共一百零七页。;例如,对上市公司的经营业绩进行分类; 例如,根据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。 例如,当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。 ;聚类分析内容;第二节距离和相似系数; 描述亲疏程度有两个途径: 1、把每个样品看成p维(变量的个数为 p个)空间的一个点,在p维坐标中, 定义点与点之间的距离。 2、用某种相似系数来描述样品之间的亲 疏程度。;变量的类型;聚类的种类;1、对样品分类(Q型) 常用的距离与相似系数的定义;样本资料矩阵;(1)距离;定义距离的准则;距离矩阵;明氏(Minkowski )距离;绝对值距离;绝对值距离实例;欧式(Euclidian )距离;二维空间欧式距离;欧氏Euclidian距离实例;切比雪夫距离;变量标准化;标准化欧式距离;马氏Mahalanobis 距离;Mahalanobis 距离实例;兰氏 Canberra距离;距离矩阵;例 题;(2)相似系数;2、对指标(变量)分类(R型);相似系数的定义; 夹角余弦(Cosine);相似矩阵; 相关系数;相似矩阵;第三节 八种系统聚类方法 (hierarchical clustering method);将n个样品各作为一类 ; 类与类之间的距离 ;(一)最短距离法 (single linkage,nearest neighbor) ;递推公式;例1 ;D(0);D(1);D(2);D(3);聚类谱系图;最短距离法聚类的步骤;(二)最长距离法;递推公式;D(0);D(1);D(2);D(3);第五十七页,共一百零七页。;(三)中间距离法Median method;如果在某一步将类Gp与Gq类合并为Gr,任一类Gk和新Gr的距离公式为: 当 时,由初等几何知就是上面三角形的中线。;D2(0) G1 G2 G3 G4 G5;D2(1) G6 G3 G4 G5;D2(2) G7 G4 G5; D2(3) G7 G8 ;(四)重心法; ;;D2(1) G6 G3 G4 G5;D 2(2) G7 G4 G5; D2(3) G7 G8 ;(五)类平均法 (Between-group Linkage);递推公式;D2(0) G1 G2 G3 G4 G5;D2(1) G6 G3 G4 G5;D 2(2) G6 G7 G3; D2(3) G7 G8 ;(六)可变类平均法;(七)可变法;(八)离差平方和法(ward法) ;D2(0) G1 G2 G3 G4 G5;D2(1) G6 G3 G4 G5;D 2(2) G6 G7 G3; D2(3) G7 G8 ;第八十三页,共一百零七页。;离差平方和法(ward法); 方法;例1 :为了更深入了解我国人口的文化程度状况,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标: (1)大学以上文化程度人口占全部人口的比例(DXBZ); (2)初中文化程度的人口占全部人口的比(CZBZ); (3)文盲半文盲人口占全部人口的比例(WMBZ)、 用来反映较高、中等、较低文化程度人口的状况,原始数据如下表: ;1990年全国人口普查文化程度人口比例(%);

文档评论(0)

SYWL2019 + 关注
官方认证
文档贡献者

权威、专业、丰富

认证主体四川尚阅网络信息科技有限公司
IP属地北京
统一社会信用代码/组织机构代码
91510100MA6716HC2Y

1亿VIP精品文档

相关文档