数据挖掘方法聚类分析.pptxVIP

下载本文档

1
0
约4.3千字
约 61页
2020-06-01 发布于上海
举报
版权申诉

数据挖掘方法聚类分析.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类分析(Cluster Analysis); “物以类聚, 人以群分” ，科学研究在揭示对象特点及其相互作用的过程中, 不惜花费时间和精力进行对象分类，以揭示其中相同和不相同的特征。 ; 聚类分析（Cluster Analysis）是研究“物以类聚”的一种多元统计方法。国内有人称它为群分析、点群分析、簇群分析、集群分析等。; 在解剖学研究中，希望能依据骨骼的形状、大小等特征将人类从猿到人分为几个不同的阶段；在临床诊治中，希望能根据耳朵的特征，把正常耳朵划分为几个类别，为临床修复耳缺损时提供参考；在卫生管理学中，希望能根据医院的诊治水平、工作效率等众多指标将医院分成几个类别；在营养学研究中，如何能根据各种运动的耗糖量和耗能量将十几种运动按耗糖量和耗能量进行分类，使营养学家既能对运动员适当的补充能量，又不增加体重。;聚类分析的方向：;在医生医疗质量研究中，有n个医生参加医疗质量评比，每一个医生有k个医疗质量指标被记录。利用聚类分析可以将n个医生按其医疗质量的优劣分成几类，或者把 k个医疗质量指标按反映的问题侧重点不同分成几类。在冠心病研究中，观察n个病人的 k个观察指标，并利用聚类分析方法分析这n个病人各自属于哪一类别，相似的病人可以采取相似的治疗措施；同时也能将k个指标分类，找出说明病人病情不同方面的指标类，帮助医生更好地全面了解病人病情。;;聚类分析（聚类）：把总体中性质相近的归为一类，把性质不相近的归为其他类。判别分析（分类）：已知总体分类，判别样本属于总体中的哪一类。;问题:;聚类分析的基本原理; 聚类分析完全是根据数据情况来进行的。就一个由n个样本、k个特征变量组成的数据文件来说，当对样本进行聚类分析时，相当于对k 维坐标系中的n 个点进行分组，所依据的是它们的距离；当对变量进行聚类分析时，相当于对n维坐标系中的k个点进行分组，所依据的也是点距。所以距离或相似性程度是聚类分析的基础。点距如何计算呢？拿连续测量的变量来说，可以用欧氏距离平方计算：即各变量差值的平方和。;; 聚类分析的基本思想是认为我们所研究的样???或指标（变量）之间存在着程度不同的相似性（亲疏关系）。于是根据一批样本的多个观测指标，具体找出一些彼此之间相似程度较大的样本（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样本（或指标）又聚合为另一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到把所有样本（或指标）都聚合完毕，把不同的类型一一划分出来，形成一个由小到大的分类系统。最后把整个分类系统画成一张谱系图，用它把所有样本（或指标）间的亲疏关系表示出来。这种方法是最常用的、最基本的一种，称为系统聚类分析。 ;聚类分析的统计量;1、描述两个样本之间的相似程度: 距离; 令 Xs =(x 1 s … x i s … x n s )是第 s 个指标变量， Xt =(x 1 t … x i t … x n t )是第 t 个指标变量，那么，指标变量 Xs和Xt之间的相关系数是： ; 令类A和类B中各有a和b个样本，D(i ,j)为类A中第 i 个样本与类B中第 j 个样本之间的距离；假设D(A, B)为类A和类B之间的距离，那么，常用的几种类间距离定义的方法是：;3）重心距离法，类间距离等于两类的重心之间的距离，即， D(A, B)=d(Xa, Xb)，其中Xa和Xb分别是类A和类B的重心，即类内所有样本的均值坐标。 4）平均距离法，类间距离等于两类中所有样本对之间距离的平均值，即， D(A, B)={sumD( i, j )} / (ab)。 5）中间距离法，类间距离等于两类中所有样本对之间距离的中间值，即， D(A, B)=median{D( i, j )}。;*4、度量类与类之间的相似系数：类间相似系数;举例;;;距离(distance)或称相似度(similarity);关于曼哈顿距离;;;算法;分割算法;;The K-Means Clustering Method ;k-平均算法;K-Means 特点;有多种变形形式;K-medoid算法;;;;层次算法;;凝聚法 (Agglomerative) ;;密度型算法;密度型算法;密度型算法;;使用weka进行聚类分析;1. 选择聚类器（Clusterer）;2. 聚类模式;3. 忽略属性;4. 学习聚类;;;;;;上述K均值算法只能处理数值型的属性，遇到分类型的属性时要把它变为若干个取值0和1的属性。WEKA将自动实施这个分类型到数值型的变换，而且WEKA会自动对数值型的数据作标准