9聚类与判别总结.pptVIP

下载本文档

10
0
约4.79千字
约 48页
2017-01-05 发布于湖北
举报
版权申诉

9聚类与判别总结.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

层次聚类以逐次聚合的方式把所有的个案分类，逐步合并直到最后合并成一类。两步聚类 K-均值聚类层次聚类不同的聚类方法选择不同的空间测度方法选择数据标准化方式分类结果特点：自动确定分类数，分类变量和连续变量可以参与聚类，高效率的分析大数据集。设置为3类的结果步骤 1、计算特征值 2、建立判别函数 3、确定判别准则 4、检验判别效果 5、分类 Fisher’s：为贝叶斯判别函数的系数。 Unstandardized：给出未标准化的费希尔判别函数的系数。（默认给出的是标准化的）输出判别结果表。含每个样品的判别分数、后验概率、实验组和预测组编号等。未标准化与标准化的典型判别函数系数表 Y1=-1.863X1+1.66X2-0.875X3+0.795X4+0.098X5+1.577X6…… 根据这个函数式，可以计算观测值在各个维度上的坐标，即可以判断空间位置。重心处的费希尔判别函数值，即为各类别重心在空间中的坐标位置。贝叶斯判别函数系数 F1=-143.555X1+…….+188.715X6-5299.688 F2=……. F3=…….. 将待判断的样本的值分别代入三个函数值，哪个值大就代表是哪一类的。个案观察结果表 2 判别分析由R.A.Fisher于1936年提出。20世纪50年代出现了贝叶斯判别，证明了Fisher判别的合理性，所以，通常将这两种判别统称为Fisher判别分析判别分析的因变量是分类的或顺序的变量，自变量是任意的(定性变量需要虚拟化) 用途：根据已知的样本分类来判别未知待判样本的归属什么是判别分析？自变量与因变量之间的关系符合线性假定因变量的取值是独立的，且必须事先确定自变量服从多元正态分布所有自变量在各组间方差齐，协方差矩阵也相等自变量间不存在多重共线性判别分析的适用条件判别分析也是一种应用十分广泛的分类方法，有人甚至认为它可以与回归分析相媲美。它与聚类分析既有联系又有区别聚类分析事先并不明确或者说并不一定要明确应该把对象分成几类，更不知道每一类中会包含哪些样品，必须由数据特征来最终确定。而判别分析要解决的问题则是在已知历史上用某些方法已经把研究对象分成若干类别，并取得了这些类别的一批已知样品观测数据的基础上，来判定新的观测样品应该归属到哪一个类别在判别分析中，通常把已经明确知道类别的那批样品称为“训练样本”。判别分析就是要利用“训练样本”，根据某些准则建立判别式（或称判别函数），从而通过判别式中的预测变量来为未知类别的样品进行分类判别分析有什么不同？判别分析的方法 1、距离判别法：根据新样本到原有总体之间的距离进行判断。马氏距离：不足：方法与总体的概率无关，与造成的损失无关 2、贝叶斯判别法：引入损失函数，使损失最小。 3、费希尔判别法：构造线性判别函数，使总体之间区别最大，每个总体内部的离差最小。 * * * * * * * * 日常生活中，人们总是喜欢用“不是一家人不进一家门”这样通俗的话语来表示具有某些相似特征的人（或物）理应“走到”一起。究其本质，人们是尝试用某一种标准把所有的对象进行分门别类在自然科学和社会科学的各个领域，存在着大量的分类问题。比如根据人均GDP、人均消费水平等多项指标把世界各国划分成不同的经济发展程度；在地质勘探中，根据岩石标本的多种特性来判别地层所属的地质年代等这些分类问题中，有些是事先并不知道存在什么类别，完全按照反映对象特征的数据所揭示的规律把对象进行分类；有些则是在事先有了某些可信的分类标准之后，判定一个新的研究对象应该归属到哪一类别这两种研究分类的基本方法分别就是多元分析中的聚类分析和判别分析，二者之间既有区别又有联系怎样解决下面的问题？聚类分析与判别分析 1 聚类分析 2 判别分析 1 聚类分析 1.1 按什么来聚类？ 1.2 怎样度量距离远近？ 1.3 分层聚类法 1.4 K-均值聚类法 1.5 两步聚类法聚类分析的目的就是把分类对象按照一定的规则分成合理的若干类别，这些类不是事先给定的，而是直接根据数据的特征确定的当面对一个数据时，人们既可以按照观测值(以下称为样品)对多个变量进行分类，也可以按照变量对不同的观测值进行分类，这在聚类分析中被分别称为R型聚类和Q型聚类但在数学上和实现过程中，这两种聚类并没有什么本质区别，考虑到人们更感兴趣的往往是基于变量信息对样品进行分类，因此在此重点以Q型聚类为例来介绍该方法什么是聚类分析？ 1.1 按什么来聚类？ 1 聚类分析 2008年5月【例8.1】下面的表8-1是20个不同品牌的啤酒的热量、纳含量、酒精以及价格数据。