聚类课件剖析.ppt

下载文档 降价啦

22
0
约1.19万字
约 82页
2017-03-22 发布于湖北
举报
版权申诉
保障服务

聚类课件剖析.ppt

1、本文档共82页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

聚类分析例对10位应聘者做智能检验。3项指标X，Y和Z分别表示数学推理能力，空间想象能力和语言理解能力。其得分如下，选择合适的统计方法对应聘者进行分类。例 16种饮料的热量、咖啡因、钠及价格四种变量基本程序：根据一批样品的多个观测指标，具体地找出一些能够度量样品或指标之间距离或相似程度的统计量，然后利用统计量将样品或指标进行归类。具体进行聚类时，由于目的、要求不同，因而产生各种不同的聚类方法：（1）由小类合并到大类的方法（2）由大类分解为小类的方法（3）静态聚类法、动态聚类法（4）按样本聚类（Q）、按指标聚类（R）思考： 1、样本点之间按什么刻画距离或相似程度 2、样本点和类之间按什么刻画距离或相似程度 3、类与类之间按什么来刻画距离或相似程度二、样品间亲疏程度的测度研究样品或变量的亲疏程度的数量指标有两种，一种叫相似系数，性质越接近的变量或样品，它们的相似系数越接近于1或一l，而彼此无关的变量或样品它们的相似系数则越接近于0，相似的为一类，不相似的为不同类；另一种叫距离，它是将每一个样品看作p维空间的一个点，并用某种度量测量点与点之间的距离，距离较近的归为一类，距离较远的点应属于不同的类。变量之间的聚类即R型聚类分析，常用相似系数来测度变量之间的亲疏程度。而样品之间的聚类即Q型聚类分析，则常用距离来测度样品之间的亲疏程度。 2、常用距离的算法把n个样本点看成p维空间的n个点（1）绝对距离（Block距离）（2）欧氏距离(Euclidean distance) （3）闵可夫斯基距离(Minkowski) （4）兰氏距离（5）马氏距离（6）切比雪夫距离(Chebychev) (3)闵可夫斯基距离主要有以下两个缺点： ①闵氏距离的值与各指标的量纲有关，而各指标计量单位的选择有一定的人为性和随意性，各变量计量单位的不同不仅使此距离的实际意义难以说清，而且，任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。 ②闵氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上，闵可夫斯基距离是把各个变量都同等看待，将两个样品在各个变量上的离差简单地进行了综合。 (5)马氏距离这是印度著名统计学家马哈拉诺比斯(P．C．Mahalanobis)所定义的一种距离，其计算公式为： 3、相似系数的算法（1）相似系数（2）夹角余弦夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量 (1)所选择的亲疏测度指标在实际应用中应有明确的意义。如在经济变量分析中，常用相关系数表示经济变量之间的亲疏程度。三、样本点与类、类与类之间的度量最短距离（Nearest Neighbor) 最长距离（Furthest Neighbor ）组内平均连接法（Within-group Linkage) 重心法（Centroid clustering):均值点的距离离差平方和法连接红绿（2，4，6，5）8.75 离差平方和增加8.75－2.5＝6.25 黄绿（6，5，1，5）14.75 离差平方和增加14.75－8.5＝6.25 黄红（2，4，1，5）10－10＝0 故按该方法黄红距离最近。 §3 系统聚类方法系统聚类法（层次聚类法）：在聚类分析的开始，每个样本自成一类；然后，按照某种方法度量所有样本之间的亲疏程度，并把最相似（近）的样本首先聚成一小类；接下来，度量剩余的样本和小类间的亲疏程度，并将当前最接近的样本或小类再聚成一类；再接下来，再度量剩余的样本和小类间的亲疏程度，并将当前最接近的样本或小类再聚成一类；如此反复，直到所有样本聚成一类为止。越是后来合并的类，距离就越远。 1、根据样品的特征，规定样品之间的距离，共有个。将所有列表，记为D（0）表，该表是一张对称表。所有的样本点各自为一类。 3、利用递推公式计算新类与其它类之间的距离。分别删除D（0）表的第p，q行和第p，q列，并新增一行和一列添上的结果，产生D（1）表。 4、在D（1）表再选择最小的非零数，其对应的两类有构成新类，再利用递推公式计算新类与其它类之间的距离。分别删除D（1）表的相应的行和列，并新增一行和一列添上的新类和旧类之间的距离。结果，产生D（2）表。