- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十九章 聚类分析 医学统计学 教学课件
第十九章 聚类分析 (Clustering Analysis) Content Similarity coefficient Hierarchical clustering analysis Dynamic clustering analysis Ordered sample clustering analysis 判别分析:在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。 聚类分析:将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。 二者都是研究分类问题的多元统计分析方法。 聚类分析属于探索性统计分析方法,按照分类目的可分为两大类。 例如测量了n个病例(样品)的m个变量(指标),可进行:(1)R型聚类: 又称指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标。(2)Q型聚类: 又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性。 无论是R型聚类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性的度量——相似系数(similarity coefficient)的定义。 第一节 相似系数1.R型(指标)聚类的相似系数 X1,X2,…,Xm表示m个变量,R型聚类常用简单相关系数的绝对值定义变量与间的相似系数: 绝对值越大表明两变量间相似程度越高。 同样也可考虑用Spearman秩相关系数定义非正态变量与间的相似系数。当变量均为定性变量时,最好用列联系数定义类间的相似系数。 2.Q型(样品)聚类常用相似系数 将n例(样品)看成是m维空间的n个点,用两点间的距离定义相似系数,距离越小表明两样品间相似程度越高。(1)欧氏距离: 欧氏距离(Euclidean distance) (2)绝对距离:绝对距离(Manhattan distance)(3)Minkowski距离:绝对距离是q=1时的Minkowski距离;欧氏距离是q=2时的Minkowski距离。Minkowski距离的优点是定义直观,计算简单;缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。 (4)马氏距离:用表示m个变量间的样本协方差矩阵,马氏距离(Mahalanobis distance)的计算公式为 其中向量 。不难看出,当(单位矩阵)时,马氏距离就是欧氏距离的平方。 以上定义的4种距离适用于定量变量,对于定性变量和有序变量必须在数量化后方能应用。 第二节 系统聚类 系统聚类(hierarchical clustering analysis)是将相似的样品或变量归类的最常用方法,聚类过程如下: 1)开始将各个样品(或变量)独自视为一类,即各类只含一个样品(或变量),计算类间相似系数矩阵,其中的元素是样品(或变量)间的相似系数。相似系数矩阵是对称矩阵; 2)将相似系数最大(距离最小或相关系数最大)的两类合并成新类,计算新类与其余类间相似系数; 重复第二步,直至全部样品(或变量)被并为一类。 一、类间相似系数的计算 系统聚类的每一步都要计算类间相似系数,当两类各自仅含一个样品或变量时,两类间的相似系数即是两样品或变量间的相似系数或,按第一节的定义计算。 当类内含有两个或两个以上样品或变量时,计算类间相似系数有多种方法可供选择,下面列出5种计算方法。用分别表示两类,各自含有个样品或变量。1.最大相似系数法 类中的个样品或变量与类中的个样品或变量两两间共有个相似系数,以其中最大者定义为与的类间相似系数。注意距离最小即相似系数最大。2.最小相似系数法 类间相似系数计算公式为3.重心法(仅用于样品聚类) 用分别表示的均值向量(重心),其分量是各个指标类内均数,类间相似系数计算公式为 4.类平均法(仅用于样品聚类) 对类中的个样品与类中的个样品两两间的个平方距离求平均,得到两类间的相似系数类平均法是系统聚类方法中较好的方法之一,它充分反映了类内样品的个体信息。 5.离差平方和法 又称
您可能关注的文档
- 第六节 雌性生殖系统(Female reproductive system) 家禽解剖学教学课件.ppt
- 第六节 高阶导数 复变函数与积分变换新版课件.ppt
- 第六节 施工图预算的方法与步骤 给排水安装预算课件.ppt
- 第六节 单句 现代汉语第五六章PPT课件.ppt
- 第六节 头足纲 水生动物学 教学课件.ppt
- 第六节 三角函数的图象和性质Ⅱ 2012高考总复 精品课件+练习(人教版)第五单元.ppt
- 第六节 细菌性痢疾患者的护理 《内科护理》课件.pptx
- 第六章.扁形动物门(Platyhelminthes) 动物学 教学课件.ppt
- 第六节 评估实例分析 汽车评估 课件.ppt
- 第六节经济周期理论 第八章 经济增长理论和经济周期理论 (宏观经济学)(PPT课件)(高鸿业).ppt
- 2025中交集团暨中国交建平台公司资深涉外法务经理(P6级)招聘笔试备考试题及答案解析.docx
- 2025中国科学院地球环境研究所博士人才招聘(陕西)笔试备考试题及答案解析.docx
- 2025中国科学院水生生物研究所诚邀全球英才(湖北)笔试备考试题及答案解析.docx
- 2025中国农业科学院北方农牧业技术创新中心技术经理人招聘1人笔试备考试题及答案解析.docx
- 2025中国农业银行吉林省分行暑期实习生招聘笔试备考试题及答案解析.docx
- 2025年贵南县公安局面向社会公开招聘警务辅助人员28人笔试备考题库及答案解析.docx
- 2025中国农业银行天津市分行度暑期实习生招募笔试备考试题及答案解析.docx
- 2025中国联通苍南县分公司招聘4人笔试备考试题及答案解析.docx
- 2025中国农业银行江西省分行暑期实习生招募笔试备考试题及答案解析.docx
- 2025中国农业银行甘肃省分行暑期实习生招募笔试备考试题及答案解析.docx
最近下载
- 12J201平屋面建筑构造图集.docx VIP
- 陶瓷绝缘连接器.pdf VIP
- 土木专业英国规范NA+A1_2012 to BS EN 1993-2_2006.pdf VIP
- 海南优腾爱科医疗科技有限公司医疗器械研发生产环评报告表.docx
- DB31_T 416-2008 城市道路路名牌(法规规范).pdf VIP
- 电力井施工规范.docx VIP
- 2023年最新的李白赞美杨贵妃的诗句.docx VIP
- ESC+2024+心房颤动(房颤)管理指南解读课件.pptx VIP
- 2025四川乐山市五通桥区发展产业投资有限公司公开招聘11人笔试备考题库及答案解析.docx VIP
- 人工智能基础(国科技大)中国大学MOOC慕课 章节测验 客观题答案.docx VIP
文档评论(0)