- 1、本文档共61页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析
(Cluster Analysis
“物以类聚,人以群分”,科学研究在揭
示对象特点及其相互作用的过程中,不惜花
费时间和精力进行对象分类,以揭示其中
相同和不相同的特征。
聚类分析( Cluster Analysis)是研究“物
以类聚”的一种多元统计方法。国内有人称
它为群分析、点群分析、簇群分析、集群分
析等。
在医学研究中的聚类需求举例:
o在解剖学研究中,希望能依据骨骼的形状、大小等特征
将人类从猿到人分为几个不同的阶段
o在临床诊治中,希望能根据耳朵的特征,把正常耳朵划
分为几个类别,为临床修复耳缺损时提供参考
o在卫生管理学中,希望能根据医院的诊治水平、工作效
率等众多指标将医院分成几个类别;
σ在营养学硏究中,如何能根据各种运动的耗糖量和耗能
量将十几种运动按耗糖量和耗能量进行分类,使营养学
家既能对运动员适当的补充能量,又不增加体重。
聚类分析的方向:
聚类分析( cluster analysis是将样本个体或指标变量按其具
有的特性进行分类的一种统计分析方法。
o对样本进行聚类,称为样本(Q型)聚类分析。其目的是将
分类不明确的样本按性质相似程度分成若干组,从而发
现同类样本的共性和不同类样本间的差异。
o对指标进行聚类,称为指标(R型)聚类分析。其目的
是将分类不明确的指标按性质相似程度分成若干组,从
而在尽量不损失信息的条件下,用一组少量的指标来代
替原来的多个指标(主成分分析?因子分析?)。
例如
在医生医疗质量研究中,有n个医生参加医疗质量评比,
每一个医生有k个医疗质量指标被记录。利用聚类分析可
以将n个医生按其医疗质量的优劣分成几类,或者把k个
医疗质量指标按反映的问题侧重点不同分成几类。
在冠心病研究中,观察n个病人的k个观察指标,并利用
聚类分析方法分析这n个病人各自属于哪一类别,相似
的病人可以采取相似的治疗措施;同时也能将κ个指标分
类,找出说明病人病情不同方面的指标类,帮助医生更
好地全面了解病人病情。
聚类分析不同于因素分析:
因素分析是根据所有变量间的相关关系提取公共因子
聚类分析是先将最相似的两个变量聚为一小类,再去与最相似
的变量或小类合并,如此分层依次进行;
聚类分析也不同于判别分析:
判别分析是要先知道各种类,然后判断某个案是否属于某一类
聚类分析(聚类):把总体中性质相近的归为一类,把
性质不相近的归为其他类
判别分析(分类):已知总体分类,判别样本属于总体
中的哪一类。
问题:
如何刻画样本/侍征变量间的
亲疏关系或相似程度?
聚类分析的基本原理
聚类分析是一种数值分类方法(即完全是根据数据关系)。要进行
聚类分析就要首先建立一个由某些事物属性构成的指标体系,或者说是
个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有
指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事
物的特征
所谓完备的指标体系,是说入选的指标是充分的,其它任何新增变
量对辨别事物差异无显著性贡献。如果所选指标不完备,则导致分类偏
差
简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个
方面。变量选择越准确、测量越可靠,得到的分类结果越是能描述事物
各类间的本质区别
文档评论(0)