- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析 方法原理 按照个体(记录)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性,而类别之间则具有尽可能高的异质性。 为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象之间的联系的紧密程度。 直观的理解为按空间距离的远近来划分类别 方法原理 假定研究对象均用所谓的“点”来表示。 在聚类分析中,一般的规则是将“距离”较小的点归为同一类,将“距离”较大的点归为不同的类。 常见的是对个体分类,也可以对变量分类 此时一般使用相似系数作为“距离”测量指标 方法原理 例:根据年龄将人群分成适当的类,从右图可见,人群被分为两类是比较合适的。 方法原理 在右图中可以看到五个样品应当可能被分为两组或者三组,C/D组x和y的取值均偏低,而另三个所在组x和y的取值均偏高 分为两类或三类都是可接受的 从图中可以直观的理解“距离”的含义 方法原理 当用于聚类的变量逐渐增多时,分析思路完全相同,只是这样简单、清晰的图示展现类别情况变得逐渐不大可能 多维空间中的观察 可能的解决方法 放弃图示化观察,改用复杂的统计指标 缩减维度,使得可以在低维度空间进行呈现 特 点 聚类分析前所有个体所属的类别是未知的,类别个数一般也是未知的,分析的依据就是原始数据,可能事先没有任何有关类别的信息可参考。 严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需要从样本去推断总体。 一般都涉及不到有关统计量的分布,也不需要进行显著性检验。 聚类分析更像是一种建立假设的方法,而对相关假设的检验还需要借助其它统计方法。 聚类分析与SPSS软件 TwoStep Cluster过程 特点: 处理对象:分类变量和连续变量 自动决定最佳分类数 快速处理大数据集 前提假设: 变量间彼此独立 分类变量服从多项分布,连续变量服从正态分布 模型稳健 TwoStep Cluster过程 步骤: 建立Cluster Features (CF) Tree 确定最佳聚类数 分析实例: 某汽车制造商为了了解整个汽车市场的形势,希望根据汽车的基本属性和价钱对其进行分类,以有效地提高竞争力。 数据:car_sales.sav categorical variable :Vehicle type continuous variables:Price in thousands ~ Fuel efficiency K-means Cluster过程 k-均值聚类(k-means cluster,也叫快速聚类,quick cluster)要求你先说好要分多少类。 假定你说分3类,这个方法还进一步要求你事先确定3个点为“聚类种子”(SPSS软件自动为你选种子);也就是说,把这3个点作为三类中每一类的基石。 然后,根据和这三个点的距离远近,把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来 “种子”就没用了),再重新按照距离分类。 如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。显然,前面的聚类种子的选择并不必太认真,它们很可能最后还会分到同一类中呢。 K-means Cluster过程 属于非系统聚类法的一种 方法原理 选择(或人为指定)某些记录作为凝聚点 按就近原则将其余记录向凝聚点凝集 计算出各个初始分类的中心位置(均值) 用计算出的中心位置重新进行聚类 如此反复循环,直到凝聚点位置收敛为止 K-means Cluster过程 方法特点 要求已知类别数 可人为指定初始位置 节省运算时间 样本量大于100时有必要考虑 只能使用连续性变量 K-means Cluster过程 分析实例 一个电信服务提供商希望基于客户使用的服务种类对客户进行细分。如果客户能够按照使用的服务种类进行细分,提供商就可以针对客户的偏好,向其提供不同的服务内容,吸引客户使用更多的服务。关于客户服务使用情况的标准变量包含在数据〈电信客户.sav〉中,请使用快速聚类法对客户进行聚类。 zlnlong~ zlnwire、zmultlin~ zebill 注意类别数、分类结果的实际应用。 练习 在SPSS自带数据文件plastic.sav中根据tear_res、gloss、opacity三个变量的取值将20个样本分为三类 方差分析表,剔除无用变量 均数描述和均数图,考察变量在各组间的均值变化情况 按姿势蝶泳、仰泳、蛙泳、自由泳四类对游泳运动员进行分类。数据〈swim.sav〉 Hierarchical Cluster过程 属于系统聚类法的一种 其聚类过程可以用树形结构(treelike structure)来描绘的方法 方法原理 先将所有n个变量/观测看成不同的n类 然后将性质最接近(距离最近)的两类合并为一类 再从这n-1类中找到最接近的两类加以合并
文档评论(0)