--数据挖掘方法--聚类的分析.ppt
聚类分析(Cluster Analysis) “物以类聚, 人以群分” ,科学研究在揭示对象特点及其相互作用的过程中, 不惜花费时间和精力进行对象分类 ,以揭示其中相同和不相同的特征。 聚类分析(Cluster Analysis)是研究“物以类聚”的一种多元统计方法。国内有人称它为群分析、点群分析、簇群分析、集群分析等。 在医学研究中的聚类需求举例: 在解剖学研究中,希望能依据骨骼的形状、大小等特征将人类从猿到人分为几个不同的阶段; 在临床诊治中,希望能根据耳朵的特征,把正常耳朵划分为几个类别,为临床修复耳缺损时提供参考; 在卫生管理学中,希望能根据医院的诊治水平、工作效率等众多指标将医院分成几个类别; 在营养学研究中,如何能根据各种运动的耗糖量和耗能量将十几种运动按耗糖量和耗能量进行分类,使营养学家既能对运动员适当的补充能量,又不增加体重。 聚类分析的方向: 聚类分析(cluster analysis)是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法。 对样本进行聚类,称为样本(Q型)聚类分析。其目的是将分类不明确的样本按性质相似程度分成若干组,从而发现同类样本的共性和不同类样本间的差异。 对指标进行聚类,称为指标(R型)聚类分析。其目的是将分类不明确的指标按性质相似程度分成若干组,从而在尽量不损失信息的条件下,用一组少量的指标来代替原来的多个指标(主成分分析?因子分析?)。 例如: 在医生医疗质量研究中,有n个医生参加医疗质量评比,每一个医生有k个医疗质量指标被记录。利用聚类分析可以将n个医生按其医疗质量的优劣分成几类,或者把 k个医疗质量指标按反映的问题侧重点不同分成几类。 在冠心病研究中,观察n个病人的 k个观察指标,并利用聚类分析方法分析这n个病人各自属于哪一类别,相似的病人可以采取相似的治疗措施;同时也能将k个指标分类,找出说明病人病情不同方面的指标类,帮助医生更好地全面了解病人病情。 聚类分析不同于因素分析: 因素分析是根据所有变量间的相关关系提取公共因子; 聚类分析是先将最相似的两个变量聚为一小类,再去与最相似 的变量或小类合并,如此分层依次进行; 聚类分析也不同于判别分析: 判别分析是要先知道各种类,然后判断某个案是否属于某一类。 问题: 如何刻画样本/特征变量间的亲疏关系或相似程度? 聚类分析的统计量 1、描述两个样本之间的相似程度: 距离 令 Xi =(x i 1 … x i t … x i k )是第 i 个样本观察值, Xj =(x j 1 … x j t … x j k )是第 j 个样本观察值,那么,样本 Xi 和 Xj 之间的欧氏距离是: 2、描述两个指标变量之间的相似程度:相似系数 令 Xs =(x 1 s … x i s … x n s )是第 s 个指标变量, Xt =(x 1 t … x i t … x n t )是第 t 个指标变量, 那么,指标变量 Xs和Xt之间的相关系数是: 3、度量类与类之间的距离:类间距离 令类A和类B中各有a和b个样本,D(i ,j)为类A中第 i 个样本与类B中第 j 个样本之间的距离;假设D(A, B)为类A和类B之间的距离,那么,常用的几种类间距离定义的方法是: *4、度量类与类之间的相似系数:类间相似系数 令类A和类B中各有a和b个指标变量,Za和Zb分别是由类A和类B中所有指标变量的线性组合构成的新变量(称为类成分),例如: Za = a1 X1 + a2 X2 Zb = b1 X3 + b2 X4 + b3 X5 且它们的组合系数使得这两个新变量具有最大的方差,则称Za和Zb之间的相关系数为类A和类B之间的相关系数。 举例 距离(distance)或称相似度(similarity) 两点之间的距离: 欧氏距离(Euclidean distance) 欧氏距离的平方(squared Euclidean distance) 曼哈顿距离(Manhattan distance ; City-Block) 关于曼哈顿距离 曼哈顿距离——两点在南北方向上的距离加上在东西方上的距离,即D(I,J)=|XI-XJ|+|YI-YJ|。对于一个具有正南正北、正东正西方向规则布局的城镇街道,从一点到达另一点的距离正是在南北方向上旅行的距离加上在东西方向上旅行的距离因此曼哈顿距离又称为出租车距离。 类间距离: 单一连接法(single linkage):又称最短距离法。 完全连接法(complete linkage):又称最长距离法。 平均连接法(average linkage) 重心法(centroid
您可能关注的文档
- (120202,教育部师资班)我国文化体制改革重点难点.ppt
- (Java)科学型计算器的开发及实现.doc
- (一)科技英语论文-写作.ppt
- (三)定量及定性应用研究.ppt
- (上)举证时限制度的困境及出路.doc
- (人事通)市场竞争的分析.ppt
- (优秀必备)硕士论文--答辩--PPT演示文稿.ppt
- (会计中心)会计核算中心的实践及探讨.doc
- (修改稿)基于SNA的景区群网络结构的经济联系的分析.doc
- (关于企业品牌战略及对策).doc
- -销售心理职业化及案例的分析(程浩然)-中华讲师网.ppt
- ...《新课程中学的科学教学设计及案例的分析》复习资料(一).doc
- ...使学生了解公共关系的工作程序,能够在各行各业顺利地开....ppt
- .Net+SQL Server企业应用性能优化笔记4——-精确查找瓶颈.doc
- .net小型搜索引擎系统开题报告.doc
- 103 既有建筑空调通风管道改造的节能性及经济性评价方法应用研究.doc
- 107定位式漏水检测系统的应用方案及报警.doc
- 10KV_35KV互感器的性能试验及电磁兼容性应用研究.doc
- 10计专王海春毕业设计论文- ----网上购物系统.doc
- 155 建筑围护结构热性能指标OTTV的应用研究及应用.doc
原创力文档

文档评论(0)