- 1、本文档共82页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析 例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。 例 16种饮料的热量、咖啡因、钠及价格四种变量 基本程序:根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间距离或相似程度的统计量,然后利用统计量将样品或指标进行归类。 具体进行聚类时,由于目的、要求不同,因而产生各种不同的聚类方法: (1)由小类合并到大类的方法 (2)由大类分解为小类的方法 (3)静态聚类法、动态聚类法 (4)按样本聚类(Q)、按指标聚类(R) 思考: 1、样本点之间按什么刻画距离或相似程度 2、样本点和类之间按什么刻画距离或相似程度 3、类与类之间按什么来刻画距离或相似程度 二、样品间亲疏程度的测度 研究样品或变量的亲疏程度的数量指标有两种,一种叫相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;另一种叫距离,它是将每一个样品看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。 变量之间的聚类即R型聚类分析,常用相似系数来测度变量之间的亲疏程度。而样品之间的聚类即Q型聚类分析,则常用距离来测度样品之间的亲疏程度。 2、常用距离的算法 把n个样本点看成p维空间的n个点 (1)绝对距离(Block距离) (2)欧氏距离(Euclidean distance) (3)闵可夫斯基距离(Minkowski) (4)兰氏距离 (5)马氏距离 (6)切比雪夫距离(Chebychev) (3)闵可夫斯基距离主要有以下两个缺点: ①闵氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。 ②闵氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,闵可夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合。 (5)马氏距离 这是印度著名统计学家马哈拉诺比斯(P.C.Mahalanobis)所定义的一种距离,其计算公式为: 3、相似系数的算法 (1)相似系数 (2)夹角余弦 夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在n维空间的向量 (1)所选择的亲疏测度指标在实际应用中应有明确的意义。如在经济变量分析中,常用相关系数表示经济变量之间的亲疏程度。 三、样本点与类、类与类之间的度量 最短距离(Nearest Neighbor) 最长距离(Furthest Neighbor ) 组内平均连接法(Within-group Linkage) 重心法(Centroid clustering):均值点的距离 离差平方和法连接 红绿(2,4,6,5)8.75 离差平方和增加8.75-2.5=6.25 黄绿(6,5,1,5)14.75 离差平方和增加14.75-8.5=6.25 黄红(2,4,1,5)10-10=0 故按该方法黄红距离最近。 §3 系统聚类方法 系统聚类法(层次聚类法):在聚类分析的开始,每个样本自成一类;然后 ,按照某种方法度量所有样本之间的亲疏程度,并把最相似(近)的样本首先聚成一小类;接下来,度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;再接下来,再度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;如此反复,直到所有样本聚成一类为止。越是后来合并的类,距离就越远。 1、根据样品的特征,规定样品之间的距离 ,共有 个。将所有列表,记为D(0)表,该表是一张对称表。所有的样本点各自为一类。 3、利用递推公式计算新类与其它类之间的距离。分别删除D(0)表的第p,q行和第p,q列,并新增一行和一列添上的结果,产生D(1)表。 4、在D(1)表再选择最小的非零数,其对应的两类有构成新类,再利用递推公式计算新类与其它类之间的距离。分别删除D(1)表的相应的行和列,并新增一行和一列添上的新类和旧类之间的距离。结果,产生D(2)表。
您可能关注的文档
- 弹性力学基础复习题重点.ppt
- 波形变换器的设计与研究实验报告重点.doc
- 挡块及支座垫石重点.doc
- 脚手架及垂直运输设施剖析.ppt
- 捣固车应急救援措施重点.doc
- 脚手架交底记录√项目剖析.doc
- 当挫折来敲门重点.ppt
- 聚类中K-means算法综述剖析.doc
- 步步高2016年高考物理人教版一轮复习《第五章机械能守恒定律》专题3重点.pptx
- 聚烯烃催化剂剖析.ppt
- DeepSeek培训课件入门宝典:第2册 开发实战篇 .pptx
- 全面认识全过程人民民主-2024春形势与政策课件.pptx
- 2024春形势与政策-全面认识全过程人民民主.pptx
- 2025年春季学期形势与政策第二讲-中国经济行稳致远讲稿.docx
- 2024春形势与政策-铸牢中华民族共同体意识课件.pdf
- 2024春形势与政策-走好新时代科技自立自强之路课件 (2).pptx
- 2024春形势与政策-走好新时代科技自立自强之路课件.pptx
- 形势与政策学习指导教学-整套课件.pdf
- 2023年春季形势与政策讲稿第三讲-开创高质量发展新局面.pdf
- DeepSeek培训课件-清华大学-DeepSeek模型本地部署与应用构建.pptx
文档评论(0)