- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十九篇 章 聚类分析 医学统计学 .ppt
第十九章 聚类分析 (Clustering Analysis) Content Similarity coefficient Hierarchical clustering analysis Dynamic clustering analysis Ordered sample clustering analysis 判别分析:在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。 聚类分析:将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。 二者都是研究分类问题的多元统计分析方法。 聚类分析属于探索性统计分析方法,按照分类目的可分为两大类。 例如测量了n个病例(样品)的m个变量(指标),可进行:(1)R型聚类: 又称指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标。(2)Q型聚类: 又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性。 无论是R型聚类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性的度量——相似系数(similarity coefficient)的定义。 (4)马氏距离:用表示m个变量间的样本协方差矩阵,马氏距离(Mahalanobis distance)的计算公式为 其中向量 。不难看出,当(单位矩阵)时,马氏距离就是欧氏距离的平方。 以上定义的4种距离适用于定量变量,对于定性变量和有序变量必须在数量化后方能应用。 第二节 系统聚类 系统聚类(hierarchical clustering analysis)是将相似的样品或变量归类的最常用方法,聚类过程如下: 1)开始将各个样品(或变量)独自视为一类,即各类只含一个样品(或变量),计算类间相似系数矩阵,其中的元素是样品(或变量)间的相似系数。相似系数矩阵是对称矩阵; 2)将相似系数最大(距离最小或相关系数最大)的两类合并成新类,计算新类与其余类间相似系数; 重复第二步,直至全部样品(或变量)被并为一类。 一、类间相似系数的计算 系统聚类的每一步都要计算类间相似系数,当两类各自仅含一个样品或变量时,两类间的相似系数即是两样品或变量间的相似系数或,按第一节的定义计算。 当类内含有两个或两个以上样品或变量时,计算类间相似系数有多种方法可供选择,下面列出5种计算方法。用分别表示两类,各自含有个样品或变量。1.最大相似系数法 类中的个样品或变量与类中的个样品或变量两两间共有个相似系数,以其中最大者定义为与的类间相似系数。注意距离最小即相似系数最大。2.最小相似系数法 类间相似系数计算公式为3.重心法(仅用于样品聚类) 用分别表示的均值向量(重心),其分量是各个指标类内均数,类间相似系数计算公式为 4.类平均法(仅用于样品聚类) 对类中的个样品与类中的个样品两两间的个平方距离求平均,得到两类间的相似系数类平均法是系统聚类方法中较好的方法之一,它充分反映了类内样品的个体信息。 5.离差平方和法 又称Ward法,仅用于样品聚类。 此法效仿方差分析的基本思想,即合理的分类使得类内离差平方和较小,而类间离差平方和较大。假定n个样品已分成g类,是其中的两类。此时有个样品的第k类的离差平方和定义为:,其中为类内指标的均数。所有g类的合并离差平方和为。如果将与合并,形成g-1类,它们的合并离差平方和。由于并类引起的合并离差平方和的增量定义为两类间的平方距离。显然,当n个样品各自成一类时,n类的合并离差平方和为0。 例19-1 测量了3454名成年女子身高(X1)、下肢长(X2)、腰围(X3)和胸围(X4),计算得相关矩阵:试用系统聚类法将这4个指标聚类。本例是R型(指标)聚类,相似系数选用简单相关系数,类间相似系数采用最大相似系数法计算。 聚类过程如下:(1)各个指标独自成一类G1={X1},G2={X2},G3={X3},G4={X4},共4类。(2)将相似系数最大的两类合并成新类,由于G1和G2类间相似系数最大,等于0.852,将两类合并成G5={X1 , X2},形成3类。计算G5与G3、G4间的类间相似系数 G3,G4,G5的类间相似矩阵 (3)由于G3和G4类间相似系数最大,
您可能关注的文档
- 第十一讲:外层空间法 国际法教程教案.ppt
- 第十一课 Property Law 法律英语课件幻灯片课件.ppt
- 第十一课 交通 泰语知识讲稿.ppt
- 第十一课 希望 新编日语第一册 知识讲稿.ppt
- 第十一课 希望 新编日语课件 第1册知识讲稿.ppt
- 第十一课 我们都是留学生 初级汉语 汉语(外国老师使用的资料)教程文件.ppt
- 第十一课 新闻报道1 中韩翻译教程课件 中文韩文翻译教程课件 韩语幻灯片课件.ppt
- 第十一课 神经网络系统辨识 人工神经网络理论及应用 教学教材.ppt
- 第十七篇 章 利用ADO组件开发数据库程序 C++ Builder 简体中文版.ppt
- 第十七篇 章 哲学释义学 现代西方哲学课件.ppt
- 浙江衢州市卫生健康委员会衢州市直公立医院高层次紧缺人才招聘11人笔试模拟试题参考答案详解.docx
- 浙江温州泰顺县退役军人事务局招聘编外工作人员笔试备考题库及参考答案详解一套.docx
- 江苏靖江市数据局公开招聘编外工作人员笔试模拟试题及参考答案详解.docx
- 广东茂名市公安局电白分局招聘警务辅助人员40人笔试模拟试题带答案详解.docx
- 江苏盐城市大丰区住房和城乡建设局招聘劳务派遣工作人员4人笔试模拟试题带答案详解.docx
- 浙江舟山岱山县东沙镇人民政府招聘笔试模拟试题及参考答案详解1套.docx
- 最高人民检察院直属事业单位2025年度公开招聘工作人员笔试模拟试题含答案详解.docx
- 浙江金华市委宣传部、中共金华市委网信办所属事业单位选调工作人员笔试备考题库及答案详解1套.docx
- 广东深圳市党建组织员招聘40人笔试模拟试题及答案详解1套.docx
- 江苏南京水利科学研究院招聘非在编工作人员4人笔试模拟试题及参考答案详解.docx
最近下载
- SY 4201.4-2016 石油天然气建设工程施工质量验收规范 设备安装工程 第4部分:炉类.docx VIP
- 电力市场分析软件:PLEXOS二次开发_(13).电力市场改革与趋势分析.docx VIP
- 云和雪梨生产全程质量控制技术规范.docx VIP
- 电力市场分析软件:PLEXOS二次开发_(12).可视化与报告生成.docx VIP
- 2024-2025学年四川省成都市新都一中实验学校七年级(上)分班数学模拟试卷(含答案).pdf VIP
- 跨座式与悬挂式单轨运输系统幻灯片.ppt VIP
- 市场营销论文:长春农商银行小微企业贷款业务市场营销策略研究.docx VIP
- 电力市场分析软件:PLEXOS二次开发_(11).数据库管理与接口设计.docx VIP
- 电力市场分析软件:PLEXOS二次开发_(10).二次开发工具与技巧.docx VIP
- 有机肥采购项目投标书(范本).docx
文档评论(0)