3聚类分析概论.pptVIP

下载本文档

17
0
约5.83千字
约 97页
2016-07-22 发布于湖北
举报
版权申诉

3聚类分析概论.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

3聚类分析概论

聚类分析;目录; 例对10位应聘者做智能检验。3项指标X，Y和Z分别表示数学推理能力，空间想象能力和语言理解能力。其得分如下，选择合适的统计方法对应聘者进行分类。;; 我们直观地来看，这个分类是否合理？计算4号和6号得分的离差平方和： (21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和： (28-18)2+(29-23)2+(28-18)2=236 计算1号和3号得分的离差平方和为482，由此可见一般，分类可能是合理的，欧氏距离很大的应聘者没有被聚在一起。由此，我们的问题是如何来选择样品间相似的测度指标，如何将有相似性的类连接起来？ ; 聚类分析的定义：根据一批样品的许多观测指标，按照一定的数学公式具体地计算一些样品或一些参数(指标)的相似程度，把相似的样品或指标归为一类。 ;§2 系统聚类法;正如样品之间的距离可以有不同的定义方法一样，类与类之间的距离也有各种定义。例如可以定义类与类之间的距离为两类之间最近样品的距离，或者定义为两类之间最远样品的距离，也可以定义为两类重心之间的距离等等。类与类之间用不同的方法定义距离，就产生了不同的系统聚类方法。 ;一、常用的算法; 3、中间距离法：介于最短距离与最长距离之间的距离。; 类平均法定义类间的距离是两类间样品的距离的平均数。; 5、可变类平均法类平均法的递推公式中，没有反映Gp类和Gq类的距离有多大，进一步将其改进，加入D2pq，并给定系数?1，则类平均法的递推公式改为：; 6、离差平方和法 ;其中是由Gp和Gq合并成的Gr类的类内离差平方和。可以证明离差平方和的聚类公式为 ; 7、可变法;分别为Gp和Gq的重心，类与类之间的距离定义为两个类重心（类内样品平均值）间的平方距离。; 设某一步Gp和Gq的重心分别为和，类内的样品数分别为np和nq，如果要把Gp和Gq合并为Gr类，则Gr类的样品数nr=np+nq，Gr类的重心为和的加权算术平均数： ; 假设第p类和第q类合并成第r类，第r类与其它各旧类的距离按重心法为：; 二、确定类的个数 ; 总离差平方和的分解（准备知识）;如果这些样品被分成两类;可以证明：总离差平方和＝组内离差平方和＋组间离差平方和令T为总离差平方和令PG为分为G类的组内离差平方和。; 2、统计量其中T是数据的总离差平方和，是组内离差平方和。比较大，说明分G个类时类内的离差平方和比较小，也就是说分G类是合适的。但是，分类越多，每个类的类内的离差平方和就越小，也就越大；所以我们只能取合适的G，使得足够大，而G本身很小，随着G的增加，的增幅不大。比如，假定分4类时， =0.8；下一次合并分3类时,下降了许多， =0.32，则分4 类是合适的。; 3、伪F统计量的定义为伪F统计量用于评价聚为G类的效果。如果聚类的效果好，类间的离差平方和相对于类内的离差平方和大，所以应该取伪F统计量较大而类数较小的聚类水平。 ;Pseudo F Statistic;4、伪统计量的定义为其中和分别是K和L的类内离差平方和，是将K和L合并为第M类的离差平方和 = - - 为合并导致的类内离差平方和的增量。用它评价合并第K和L类的效果，伪统计量大说明不应该合并这两类，应该取合并前的水平。; 三、系统聚类法的基本性质 ; 2、空间的浓缩和扩张设有两种系统聚类法A和B，他们在第i步的距离矩阵分别为Ai和Bi（i=1，2，3…），若AiBi ，则称第一种方法A比第二种方法B使空间扩张，或第二种方法比第一种方法浓缩。;四、主要的步骤; 3、聚类选定了聚类的变量，计算出样品或指标之间的相似程度后，构成了一个相似程度的矩阵。这时主要涉及两个问题：（1）选择聚类的方法（2）确定形成的类数;4、聚类结果的解释;例1 某公司下属30个企业，公司为了考核下属企业的经济效益，设计了8个指标。为了避免重复，需要对这8个指标进行筛选，建立一个恰当的经济效益指标体系。通过计算30个企业8个指标的相关系数距离，数据是1-r2。得如下表:;;例2 根据美国等20个国家和地区的信息基础设施的发展状况进行分类。 Call—每千人拥有的电话线数； movel—每千人户居民拥有的蜂窝移动电话数； fee—