3聚类分析概论.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3聚类分析概论

聚类分析;目 录; 例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。;; 我们直观地来看,这个分类是否合理? 计算4号和6号得分的离差平方和: (21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和: (28-18)2+(29-23)2+(28-18)2=236 计算1号和3号得分的离差平方和为482,由此可见一般,分类可能是合理的,欧氏距离很大的应聘者没有被聚在一起。 由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来? ; 聚类分析的定义:根据一批样品的许多观测指标,按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度,把相似的样品或指标归为一类。 ;§2 系统聚类法;正如样品之间的距离可以有不同的定义方法一样,类与类之间的距离也有各种定义。例如可以定义类与类之间的距离为两类之间最近样品的距离,或者定义为两类之间最远样品的距离,也可以定义为两类重心之间的距离等等。类与类之间用不同的方法定义距离,就产生了不同的系统聚类方法。 ;一、常用的算法; 3、中间距离法:介于最短距离与最长距离之间的距离。; 类平均法定义类间的距离是两类间样品的距离的平均数。; 5、可变类平均法 类平均法的递推公式中,没有反映Gp类和Gq类的距离有多大,进一步将其改进,加入D2pq,并给定系数?1,则类平均法的递推公式改为:; 6、离差平方和法 ;其中 是由Gp和Gq合并成的Gr类的类内离差平方和。可以证明离差平方和的聚类公式为 ; 7、可变法;分别为Gp和Gq的重心,类与类之间的距离定义为 两个类重心(类内样品平均值)间的平方距离。; 设某一步Gp和Gq的重心分别为 和 ,类内的样品数分别为np和nq,如果要把Gp和Gq合并为Gr类,则Gr类的样品数nr=np+nq,Gr类的重心为 和 的加权算术平均数: ; 假设第p类和第q类合并成第r类,第r类与其它各旧类的距离按重心法为:; 二、确定类的个数 ; 总离差平方和的分解(准备知识);如果这些样品被分成两类;可以证明: 总离差平方和 =组内离差平方和+组间离差平方和 令T为总离差平方和 令PG为分为G类的组内离差平方和。; 2、统计量 其中T是数据的总离差平方和, 是组内离差平方和。 比较大,说明分G个类时类内的离差平方和比较小,也就是说分G类是合适的。但是,分类越多,每个类的类内的离差平方和就越小, 也就越大;所以我们只能取合适的G,使得 足够大,而G本身很小,随着G的增加, 的增幅不大。比如,假定分4类时, =0.8; 下一次合并分3类时,下降了许多, =0.32,则分4 类是合适的。; 3、伪F统计量的定义为 伪F统计量用于评价聚为G类的效果。如果聚类的效果好,类间的离差平方和相对于类内的离差平方和大,所以应该取伪F统计量较大而类数较小的聚类水平。 ;Pseudo F Statistic;4、伪 统计量的定义为 其中 和 分别是K和L的类内离差平方和, 是将K和L合并为第M类的离差平方和 = - - 为合并导致的类内离差平方和的增量。用它 评价合并第K和L类的效果,伪 统计量大说 明不应该合并这两类,应该取合并前的水平。; 三、系统聚类法的基本性质 ; 2、空间的浓缩和扩张 设有两种系统聚类法A和B,他们在第i步的距离矩阵分别为Ai和Bi(i=1,2,3…),若AiBi ,则称第一种方法A比第二种方法B使空间扩张,或第二种方法比第一种方法浓缩。;四、主要的步骤; 3、聚类 选定了聚类的变量,计算出样品或指标之间的相似程度后,构成了一个相似程度的矩阵。这时主要涉及两个问题: (1)选择聚类的方法 (2)确定形成的类数;4、聚类结果的解释;例1 某公司下属30个企业,公司为了考核下属企业的经济效益,设计了8个指标。为了避免重复,需要对这8个指标进行筛选,建立一个恰当的经济效益指标体系。通过计算30个企业8个指标的相关系数距离,数据是1-r2。得如下表:;;例2 根据美国等20个国家和地区的信息基础设施 的发展状况进行分类。 Call—每千人拥有的电话线数; movel—每千人户居民拥有的蜂窝移动电话数; fee—

文档评论(0)

骨干 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档