数据挖掘的方法法聚类分析.ppt

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析 (Cluster Analysis “物以类聚,人以群分”,科学研究在揭 示对象特点及其相互作用的过程中,不惜花 费时间和精力进行对象分类,以揭示其中 相同和不相同的特征。 聚类分析( Cluster Analysis)是研究“物 以类聚”的一种多元统计方法。国内有人称 它为群分析、点群分析、簇群分析、集群分 析等。 在医学研究中的聚类需求举例: o在解剖学研究中,希望能依据骨骼的形状、大小等特征 将人类从猿到人分为几个不同的阶段 o在临床诊治中,希望能根据耳朵的特征,把正常耳朵划 分为几个类别,为临床修复耳缺损时提供参考 o在卫生管理学中,希望能根据医院的诊治水平、工作效 率等众多指标将医院分成几个类别; σ在营养学硏究中,如何能根据各种运动的耗糖量和耗能 量将十几种运动按耗糖量和耗能量进行分类,使营养学 家既能对运动员适当的补充能量,又不增加体重。 聚类分析的方向: 聚类分析( cluster analysis是将样本个体或指标变量按其具 有的特性进行分类的一种统计分析方法。 o对样本进行聚类,称为样本(Q型)聚类分析。其目的是将 分类不明确的样本按性质相似程度分成若干组,从而发 现同类样本的共性和不同类样本间的差异。 o对指标进行聚类,称为指标(R型)聚类分析。其目的 是将分类不明确的指标按性质相似程度分成若干组,从 而在尽量不损失信息的条件下,用一组少量的指标来代 替原来的多个指标(主成分分析?因子分析?)。 例如 在医生医疗质量研究中,有n个医生参加医疗质量评比, 每一个医生有k个医疗质量指标被记录。利用聚类分析可 以将n个医生按其医疗质量的优劣分成几类,或者把k个 医疗质量指标按反映的问题侧重点不同分成几类。 在冠心病研究中,观察n个病人的k个观察指标,并利用 聚类分析方法分析这n个病人各自属于哪一类别,相似 的病人可以采取相似的治疗措施;同时也能将κ个指标分 类,找出说明病人病情不同方面的指标类,帮助医生更 好地全面了解病人病情。 聚类分析不同于因素分析: 因素分析是根据所有变量间的相关关系提取公共因子 聚类分析是先将最相似的两个变量聚为一小类,再去与最相似 的变量或小类合并,如此分层依次进行; 聚类分析也不同于判别分析: 判别分析是要先知道各种类,然后判断某个案是否属于某一类 聚类分析(聚类):把总体中性质相近的归为一类,把 性质不相近的归为其他类 判别分析(分类):已知总体分类,判别样本属于总体 中的哪一类。 问题: 如何刻画样本/侍征变量间的 亲疏关系或相似程度? 聚类分析的基本原理 聚类分析是一种数值分类方法(即完全是根据数据关系)。要进行 聚类分析就要首先建立一个由某些事物属性构成的指标体系,或者说是 个变量组合。入选的每个指标必须能刻画事物属性的某个侧面,所有 指标组合起来形成一个完备的指标体系,它们互相配合可以共同刻画事 物的特征 所谓完备的指标体系,是说入选的指标是充分的,其它任何新增变 量对辨别事物差异无显著性贡献。如果所选指标不完备,则导致分类偏 差 简单地说,聚类分析的结果取决于变量的选择和变量值获取的两个 方面。变量选择越准确、测量越可靠,得到的分类结果越是能描述事物 各类间的本质区别

文档评论(0)

kefuxing + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档