- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析 定义 聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。 基本思想 样本(或变量)间存在着相似性,根据多个观测指标,找出能度量样本之间相似程度的统计量,以其为依据,把相似程度较大的样本聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样本都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。 聚类原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。 按照聚类分析分组依据的原则不同分组 按照聚类分析的对象不同分组 系统聚类分析法 在样品距离的基础上定义类与类的距离,首先将各个样品自成一类,然后每次将具有最小距离的两个类合并,合并后再重新计算类与类之间的距离,再并类,这个过程一直持续到所有的样品都归为一类为止。这种聚类方法称为系统聚类法。根据并类过程所做的样品聚类过程图称为聚类谱系图。 动态聚类分析法 将个样品初步分类,然后根据分类函数尽可能小的原则,对初步分类进行调整优化,直到分类合理为止。这种分类方法一般称为动态聚类法,也称为调优法。 模糊聚类分析法 利用模糊数学中模糊集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果。 图论聚类法 利用图论中最小支撑树(MST)的概念来处理分类问题,是一种独具风格的方法。 聚类预报法 利用聚类方法处理预报问题,主要是处理一些异常数据,如气象中的灾害性天气的预报,这些异常数据采用回归分析或判别分析处理的效果不好,而聚类预报可以弥补回归分析及判别分析方法之不足,是一个很值得重视的方法。 Q型聚类分析法 对样本进行分类,是具有共同特点的样本聚在一起,以便对不同类的样本进行分析。 作用 ① 综合利用多个变量对样品进行分类; ② 分类结果直观,聚类谱系图清晰; ③ 聚类结果细致、全面、合理。 R型聚类分析法 对变量进行的分类处理。 作用 ① 了解变量之间,以及变量组合之间的亲疏程度; ② 根据变量分类的结果,可以选择最佳的变量组合进行回归分析或者Q型聚类分析。选择最佳变量,即在聚合的每类变量中选出一个具有代表性的变量作为典型变量。 Q型聚类的统计量 对样品进行分类时,通常采用距离来表示样品之间的亲疏程度。 常用的距离有: (1)明氏距离(明科夫斯基Minkowski) (2)兰氏距离(Lance和Williams) (3)马氏距离(Mahalanobis) (4)斜交空间距离 R型聚类的统计量 对变量进行聚分类析时,通常采用相似系数来表示变量之间的亲疏程度。 常用的相似系数有: (1)夹角余弦 (2)相关系数 (3)指数相似系数 (4)非参数方法 CLUSTER语句格式 在CLUSTER语句的“METHOD= ”关键字下,可以指定11种系统聚类方法。 AVERAGE:类平均法 CENTROID:重心法 COMPLETE:最长距离法 DENSITY:密度估计法 EML:最大似然谱系聚类 FLEXIBLE:可变类平均法 MCQUITTY:可变法及McQuitty相似分析法 MEDIAN:中间距离法 SINGLE:最短距离法 TWOSTAGE:两阶段密度估计法 WARD:离差平方和法 FASTCLUS语句格式 例题1 数据集drink收集了16种饮料的热量、咖啡因、钠及价格四种变量的值。现在希望利用这四个变量对这些饮料品牌进行聚类。 例题1 例题2 假如我们要对游泳运动员进行分项训练,对10名运动员的三项测试数据记录如下。其中变量xl=肩宽/髋宽×100;x2=胸厚/胸围×100;x3=腿长/身长×100。按泳姿(蝶泳、仰泳、蛙泳、自由泳)对运动员进行聚类。 ACECLUS语句格式 ACECLUS 过程假设各类别为多元正态分布且协方差阵相等,多用于 对大型数据聚类分析的预分析。 ACECLUS 过程的语句格式: PROC ACECLUS PROPOTION=p|THRESHOLD=toptions; BY variables; FREQ variable; VAR variables; WEIGHT variable; RUN; VARCLUS语句格式 对变量作谱系聚类或分离聚类,即R聚类。 PROC VARCLUS options; VAR variables; SEED variables; PARTIAL variables; WEIGHT vari
您可能关注的文档
最近下载
- 《家用医疗器械租赁服务规范》.pdf VIP
- 重庆市渝北区2024年七年级上学期数学期末试卷附答案.pptx VIP
- 力学实验(解析版)-2025版高三物理寒假讲义.pdf VIP
- 肘关节运动学.pptx VIP
- 2025年生活会个人对照检视发言材料【四个带头+违纪行为典型案例解析】与个人检查材料2篇文.docx VIP
- 家用医疗器械租赁服务规范.docx VIP
- 锂离子电池和电池组生产安全要求SJT 11798-2022.docx VIP
- 专业技术职务任职资格评审表 - 专业技术职务任职资格评审表.doc
- 2024-2025学年深圳市南山区四上数学期末试卷及答案.pdf
- 2022-2023学年辽宁省沈阳126中七年级下学期期中数学试卷(含答案解析).docx
文档评论(0)