- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第14章 聚类分析
第14章 聚类分析 本章主要内容 概述 Cluster过程 FastClus过程 Tree过程 概述 聚类分析(Cluster Analysis)相关研究 数理分类法(Numerical Taxonomy) Q 分析法(Q-Analysis) 分节法(Partitioning) 拓扑法(Typology) 自由原型识别法(Unsupervised Pattern Recognition) 分类法(Classification) 系统方法(Systematics) 团摺法(Clumping) 计程学(Taximetrics) 分类描述学(Taxonorics) 花序分类学(Botryology) 形状分类学(Morphometrics) 疾病描述学(Noxography) 疾病分类学(Nosology) 菊状分类学(Aciniformics) 集群分类法(Agminatics) 等 概述 聚类分析是一组分类方法的统称,是研究各种事物和现象分类的统计方法,如土壤、作物品种分类等。 聚类分析把相似的变量或观察个体归为一类,也称为一个集群(Cluster),而有较大差异的则归为不同的类别。 具体地说,就是根据已知数据,计算各个观察个体或变量之间亲疏关系的统计量(距离或相关系数),再根据某种准则(最短距离法、最长距离法、中间距离法、重心法等)合并观察个体或变量,使同一类内差别较小,类与类之间差别较大,最终分为若干类别。 概述 一般我们把分类依据的条件称为指标或变量,而把要对其进行分类的对象称为样品。 根据聚类对象(变量或观察个体)的不同,聚类分析可分为指标聚类(Clustering for variables)和样品聚类(Clustering for individuals)。 聚类有多种方法:如系统聚类法(Hierarchical Cluster,谱系聚类法)、相斥式聚类法(Disjoint Cluster、分离聚类法)、调优法、图论法等。 概述 聚类方法——系统聚类法: 首先,每一个样品分别作为独立的类别,计算各类别之间的距离,距离最近的两个类别形成一个新类别; 然后,重新计算各类别之间的距离,再将距离最近的两个类别合并为一个新类别; 如此反复,直到所有的类别合并到一个类别中。 最后,将结果绘制成一张聚类树形图,直观地反映聚类过程。 概述 聚类方法——相斥式聚类法: 基于“上限-中心点-重心”原理。 首先,将样品初步分为U类,作为聚类个数的“上限”,从中确定其“中心点”,作为迭代起点。 然后,考察一个样品,将它移到最靠近的那个中心,形成“聚类”,并算出每一类的“重心”,再考察一个样品,将其移到另一类。 若能减少样品对于各自中心的离差之和,则把此两类的中心同时移到新的重心,并且以重新计算的重心取代原来的重心。 如此反复迭代,直到再也无法降低样品与重心离差之和为止,移动终止,形成各个聚类。 概述 聚类依据: 距离法,就是将每一样品看成m维空间的一个点,这样研究样品间的关系就可以变为研究m维空间中点与点间的关系,而点与点间的关系常用距离来表示。 相似系数法,越相近的样品,它们的相似系数越接近1(或-1),而彼此无关的样品则相似系数接近0。这样就可以根据相似系数的值,把比较相似的样品归为一类,而把不相似的样品归为不同的类。 概述 SAS中常用的聚类过程: Cluster过程 FastClus过程 VarClus过程 Tree过程 AceClus过程 Cluster过程 可使用11种距离中的任一种对SAS数据集中的观测(样品)进行系统聚类。 输入数据可以是原始数值或观测之间的距离。 若数据为原始数值,默认的距离计算方法为欧氏距离。如果要使用其他的距离计算方法,可以先调用Distance过程将数据转换为相应的距离数据,再调用Cluster过程进行分析。 Cluster不太适合大样本数据聚类。 Cluster过程 语句格式: Cluster过程 Cluster语句选项(部分): Cluster过程 类间距离的定义方法(选项method=): Cluster过程 FastClus过程 利用K-平均数法(K-Means)对观测进行相斥式聚类分析。 聚类依据同样是样品间的距离。默认情况下,以欧氏距离作为分类依据。 适用于大样本数据分析,观测可多达10万个。 FastClus分析结果不会产生树状聚类图,若要对大样本数据进行系统聚类,可先调用FastClus过程以确定样品的初始分类,再将输出结果交给Cluster过程进行聚类分析。 FastClus过程 由于FastClus过程用到初始化的方法,使得它对样品中的离群值非常敏感,分析结果中离群值往往独占一个分类,所以FastClus过程可以当作一种有效的离群值检测工具来用。 T
您可能关注的文档
- 第12章 电子商务安全.ppt
- 第12章 网络信息安全.ppt
- 第12章 色谱法导论.ppt
- 第12章 计算机安全.ppt
- 第12章 贾卡经编产品设计.ppt
- 第12章 采购与库存管理.ppt
- 第12章--数据库的安全管理.ppt
- 第12章.安全管理.ppt
- 第12章T淋巴细胞介导的适应性免疫应答.ppt
- 第12章“机械的效率”习题答案.ppt
- 2025至2030中国移动治疗台行业发展研究与产业战略规划分析评估报告.docx
- 2025至2030链激酶行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030爆炸物探测扫描仪行业市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030四川省智能制造行业细分市场及应用领域与趋势展望研究报告.docx
- 2026届高三二轮复习试题政治大单元突破练1生产资料所有制与分配制度含解析.docx
- 2026届高三二轮复习试题政治大单元突破练16哲学基本思想与辩证唯物论含解析.docx
- 2026届高三二轮复习试题政治大单元突破练2社会主义市场经济体制含解析.docx
- 浙江省衢州市五校联盟2025-2026学年高二上学期期中联考技术试题-高中信息技术含解析.docx
- 浙江省金丽衢十二校2026届高三上学期11月联考政治试题含解析.docx
- 2026届高三二轮复习试题政治大单元突破练7领导力量:中国共产党的领导含解析.docx
最近下载
- 信息技术与高中数学课堂教学融合路径研究.pptx VIP
- 2023ABB VD4真空断路器安装使用说明书.docx VIP
- MDCG 2022-21 欧盟定期安全更新报告(PSUR)指南(中文版).pdf VIP
- 七年级数学上册2.2.1同类项与合并同类项课件新版北京课改版 (2).ppt VIP
- 宝宝是从哪里来的.ppt VIP
- 信息技术与高中数学课堂教学深度融合的案例研究 (6).pptx VIP
- PPT:继往开来:从“十四五”辉煌成就到坚定不移迈向“十五五”新征程(四中全会).pptx VIP
- 黄帝的传说(课件).pptx VIP
- 2025年大学《化学测量学与技术》专业题库—— 分子探针技术在化学测量中的应用.docx
- 重型柴油车OBD尾气检测系统方案 ppt课件.doc VIP
原创力文档


文档评论(0)