spss统计学聚类分析与判别分析.pptVIP

下载本文档

84
0
约1.33万字
约 70页
2020-03-18 发布于山东
举报
版权申诉

spss统计学聚类分析与判别分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类分析聚类分析是一种研究“物以类聚”的多元统计方法，按照一定的分类原则，将变量或样品聚为一类。一概述聚类分析根据分类对象的不同，分为R型聚类分析与Q型类分析两种。用于变量的分类用R型聚类分析，用于样品的分类用Q型聚类分析。聚类分析的基本思想：先将分类对象（变量或样品）各自看成一类，然后选择一个统计量来衡量分类对象的相似程度，根据其大小先将两两对象聚成一类，如此下去，直至所有对象都聚成一类（或预分的类）为止。将聚类的整个过程作成一张谱系图，然后根据实际问题的需要，选择一个合适的分类标准，便能得到所要分的类。聚类方法可单独使用，也可与其它多元统计方法结合使用，如可先进行聚类分析，再进行多元回归分析或判别分析。对于R型聚类结果，需要选出各类的代表性变量，称为典型变量。当一类中只有两个变量时，可以任选一个作为典型变量。当一类中多于两个变量时，需要计算相关指数R2（相关系数的平方，也称判定系数）的平均数R2，将其值最大的变量作为典型变量。 R2= Σr2 /k-1,其中，r为类内变量之间的相关系数，k为类内的变量个数。 1．聚类方法一般多元统计书上介绍8种方法：最短距离法：将两类样本间的最短距离作为类与类之间的距离，具有单调性，空间收缩很快。最长距离法：与最短距离法相反，将两类样本间的最长距离作为类与类之间的距离，也具有单调性，聚类空间呈扩张状态。中间距离法：类间距离介于以上两种方法之间，聚类空间处于守衡状态，不能保证类距离总是单调的。重心法：上述3种方法在定义类间距离时均未考虑新类中所含样本点的多少，存在不合理之处，该方法可以纠正上述问题。与中间距离法类似，聚类空间守衡，不能保证类距离总是单调的。类平均法：为了更多地吸取类内样本点信息，定义类间距离为两类中样本点间距离平方的平均。该法空间守衡，又是单调的，是较为理想的系统聚类方法。可变类平均法：在计算类间距离的公式中引入了聚集强度系数β（β1），β取不同的值可能会得到不同的聚类结果，选择合适的β值，以达到最佳聚类效果，一般认为取-1/4时效果较好。该方法仍具有单调性，比类平均法更为合理一些。可变法：将可变类平均法中的聚集强度系数β引进中间距离法就形成了该方法。离差平方和法：又称Ward法，利用方差分析原理进行聚类。 2．常用的数据变换方法中心化变换、标准化变换、极差正规化变换、对数变换 3．距离绝对值、欧氏、切比雪夫、兰氏、马氏、斜交空间 4．相似系数积差相关系数、夹角余弦、指数相似系数二、快速样本聚类过程当要聚成的类数已知时，使用快速聚类可很快将观测量分到各类中，特点是处理速度快，占用内存少，适用于大样本的Q型聚类分析。参与聚类的变量必须是数值型变量且至少要有一个。如果选择了n个数值型变量参与聚类分析，最后要求聚为k类，则可以首先由系统选择k个观测量（也可用户指定）作为聚类的种子，n个变量组成n维空间。每个观测量在n维空间中是一个点。 k个事先选定的观测量是k个聚类的中心点，也称为初始类中心。按照距这几个类中心的距离最小原则把观测量分派到各类中心所在的类中去；形成第一次迭代形成的k类。根据组成每一类的观测量计算各变量均值，每一类中的n个均值在n维空间中又形成k个点，这是第二次迭代的类中心，按此方法依次迭代下去，直到达到指定的迭代次数或达到终止迭代的判据要求时，迭代停止。注：快速聚类使用的距离是欧氏距离的平方，如果想使用其他距离或统计量聚类应使用系统聚类。如果测定变量值的单位不同，应对聚类变量使用Descriptives过程进行标准化后再进行聚类分析。 “Analyze”→“Classify”→“K-Means Cluster”项。 1．1 主对话框 Variables：存放聚类变量 Number of 框：输入分类数 Iterate and classify：先指定初始类别中心点，而后按“K-means”算法作迭代分类，调整聚类中心点。 Classify only：仅按初始类别中心点分类。 Centers 对话框 Read initial from：要求使用指定数据文件中的观测值作为初始类中心。选择该项，事先要建立一个数据文件，其中观测值的个数要与聚的类数相等；还要增加一个聚类变量，指明观测值是哪一类的中心点。Write final as：要求将聚类结果中的各类中心数据保存到指定的文件中。 Iterate设置迭代参数对话框 Maximum Iterations：限定“K-means”算法的迭代次数，选择范围为1～999。 Convergence Criterion：限定“K-means”算法的收敛标准，记为N，其值范围为0～1，当两次迭代计算的最小的类中心的变化距离小于初始类中心距离的