分层聚类分析.pptVIP

  1. 1、本文档共75页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分层聚类分析

hierarchical clustering method; 聚类分析也是一种分类技术。是研究“物以类聚”的一种方法。与多元分析的其他方法相比,该方法理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,应用方面取得了很大成功。;举 例;应聘者得分如下;怨恤魂袄抗肪虫品琳灰寓瘪霸俐迁盾期血滚堰壕卿鸥钮叛膨膊尊跟溢劲徒分层聚类分析聚类分析;例如,对上市公司的经营业绩进行分类; 例如,根据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。 例如,当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。 ;八种层次聚类方法 (hierarchical clustering method);将n个样品各作为一类 ; 类与类之间的距离 ;(一)最短距离法 (single linkage,nearest neighbor) ;递推公式;例1 ;D(0);D(1);D(2);D(3);聚类谱系图;最短距离法聚类的步骤;(二)最长距离法;递推公式;D(0);D(1);D(2);D(3);扔回炮予棵皂眯押铱画洛婿坦夏歼时妈愈初询只霞网谜叛殃宴拄湍一研龄分层聚类分析聚类分析;(三)中间距离法Median method;如果在某一步将类Gp与Gq类合并为Gr,任一类Gk和新Gr的距离公式为: 当 时,由初等几何知就是上面三角形的中线。;D2(0) G1 G2 G3 G4 G5;D2(1) G6 G3 G4 G5;D2(2) G7 G4 G5; D2(3) G7 G8 ;(四)重心法; ;;D2(1) G6 G3 G4 G5;D 2(2) G7 G4 G5; D2(3) G7 G8 ;(五)类平均法 (Between-group Linkage);递推公式;D2(0) G1 G2 G3 G4 G5;D2(1) G6 G3 G4 G5;D 2(2) G6 G7 G3; D2(3) G7 G8 ;(六)可变类平均法;(七)可变法;(八)离差平方和法(ward法) ;D2(0) G1 G2 G3 G4 G5;D2(1) G6 G3 G4 G5;D 2(2) G6 G7 G3; D2(3) G7 G8 ;弓抬岸姻循狱河殃赘为怜却养染忠颊幽醇塌池幸球几怕迹禽人签南龚扔纸分层聚类分析聚类分析;离差平方和法(ward法); 方法;例1 :为了更深入了解我国人口的文化程度状况,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标: (1)大学以上文化程度人口占全部人口的比例(DXBZ); (2)初中文化程度的人口占全部人口的比(CZBZ); (3)文盲半文盲人口占全部人口的比例(WMBZ)、 用来反映较高、中等、较低文化程度人口的状况,原始数据如下表: ;1990年全国人口普查文化程度人口比例(%);;第一类:北京、天津、山西、辽宁、吉林、黑龙江、 上海。 其中大多是东部经济、文化较发达的地区。 第二类:安徽、宁夏、青海、甘肃、云南、贵州 其中大多数是西部经济、文化发展较慢的地区。 第三类:西藏。经济、文化较落后的地区。 第四类:其它省、直辖市、自治区。 经济、文化在全国处于中等水平。;例2:根据美国等20个国家和地区的信息基础设施 的发展状况进行分类。 Call—每千人拥有的电话线数; move l—每千人户居民拥有的蜂窝移动电话数; fee—高峰时期每三分钟国际电话的成本; comp—每千人拥有的计算机数; mips—每千人计算机功率(每秒百万指令); net—每千人互联网络户主数。 ;表3-4 20个国家信息基础设施指标资料;;本例聚为2类: 第一类

文档评论(0)

htfyzc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档