- 1、本文档共93页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五讲 聚类分析 K均值聚类分析 K-均值聚类(步骤) 第1步:确定要分的类别数目K 需要研究者自己确定 在实际应用中,往往需要研究者根据实际问题反复尝试,得到不同的分类并进行比较,得出最后要分的类别数量 第2步:确定K个类别的初始聚类中心 要求在用于聚类的全部样本中,选择K个样本作为K个类别的初始聚类中心 与确定类别数目一样,原始聚类中心的确定也需要研究者根据实际问题和经验来综合考虑 使用SPSS进行聚类时,也可以由系统自动指定初始聚类中心 K均值聚类分析 第3步:根据确定的K个初始聚类中心,依次计算每个样本到K个聚类中心的欧氏距离,并根据距离最近的原则将所有的样本分到事先确定的K个类别中。 第4步:根据所分成的K个类别,计算出各类别中每个变量的均值,并以均值点作为新的K个类别中心。根据新的中心位置,重新计算每个样本到新中心的距离,并重新进行分类。 K均值聚类分析 第5步:重复第4步,直到满足终止聚类条件为止 迭代次数达到研究者事先指定的最大迭代次数(SPSS隐含的迭代次数是10次) 新确定的聚类中心点与上一次迭代形成的中心点的最大偏移量小于指定的量(SPSS隐含的是0.02) K-均值聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的类别中。类别数目的确定具有一定的主观性,究竟分多少类合适,需要研究者对研究问题的了解程度、相关知识和经验。 K均值聚类分析 聚类数 k 的确定准则 各类所包含的元素不要过分地多 分类的数目应符合使用的目的 先用系统聚类初步确定分类数 采用几种不同的系统聚类方法处理,则在各自的聚类图上 发现相同的聚类数或借助树状图确定合理的k 系统聚类中每次合并的类与类之间的距离可以作为确定类 数的一个辅助工具。聚类过程中,聚合系数呈增加趋势, 聚合系数小,表示合并的两类的相似程度大,两个差异很 大的类合并在一起,会使聚合系数增大;或者根据聚合系 数随聚类数变化的曲线图确定合适的k。 K均值聚类分析 应用实例 聚类分析的注意事项 无论哪种方法,最终要分成多少类别,并不是完全由方法本身来决定,研究者应结合具体问题而定 聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法,也会的得到不同的分类结果。分类的结果没有对错之分,只是分类标准不同而已 使用聚类方法时,首先要明确分类的目的,再考虑选择哪些变量(或数据)参与分类,最后才需要考虑方法的选择。至于分类结果是否合理,该如何解释,更多取决于研究者对所研究问题的了解程度、相关的背景知识和经验 聚类分析的注意事项 参与分类的各变量的取值不应有数量级上的过大差异,否则会对分类结果产生较大影响。这时需要对变量进行标准化处理(SPSS提供的层次聚类法中在聚类时可以选择对变量做标准化处理,而K-均值聚类法则需要单独做标准化处理,然后再进行聚类) 各变量间不应有较强的相关关系。若两个强相关的变量同时参与聚类分析,在测度距离时,就加大了它们的贡献,而其他变量则相对被削弱 一 有序样品可能的分类数目 二 费希尔最优求解法 三 一个典型例子 有序样品聚类法 有序样品聚类法 以上的系统聚类和K-均值聚类中,样品的地位是彼此独立的,没有考虑样品的次序。但在实际应用中,有时样品的次序是不能变动的,这就产生了有序样品的聚类分析问题。例如对动植物按生长的年龄段进行分类,年龄的顺序是不能改变的,否则就没有实际意义了;又例如在地质勘探中,需要通过岩心了解地层结构,此时按深度顺序取样,样品的次序也不能打乱。 有序样品聚类法 如果用X(1) , X(2) , …,X(n)表示n个有序的样品,则每一类必须是这样的形式,即X(i) , X(i+1),…,X(j) ,其中1 ? r ? n,且j ? n,简记为Gi = {i,i+1,…,j}。在同一类中的样品是次序相邻的。这类问题称为有序样品的聚类分析。在分类时,要求样品的次序不能打乱,因而这种分类也称为分割法。 如,从1949年到2009年,我国的国内生产总值可以划分为几个阶段。阶段的划分必须以年份为依据,即按照时间顺序将国内生产总值接近的年份划分到一个段内 如,研究儿童生长发育规律,可以根据一些反映生长发育特征的指标,将儿童生长发育分为几个不同阶段 有序样品可能的分类数目 n个有序样品分成k类,则一切可能的分法有 种。 实际上,n个有序样品共有(n ?1)个间隔,分成k类相当于在这(n ?1)个间隔中插入k ?1根“棍子”。由于不考虑棍子的插入顺序,是一个组合问题,共有 种插法。 对于有限的n和k,有序样品的所有可能分类结果是有限的,使各段内样品间的差异最小,各段间样品
您可能关注的文档
- 第十四课品质和诚信资料.ppt
- 第十四章_国际货币制度资料.ppt
- 第十四章财务报告中级财务会计(第三版、精编版)电子课件978-7-5654-1567-8资料.ppt
- 第十四章妇科护理病理资料.ppt
- 第十四章购货与付款循环20140417资料.ppt
- 第十四章国际市场分销策略资料.ppt
- 第十四章海上保险保障的范围资料.ppt
- 第十四章进出口合同的履行资料.ppt
- 第十四章贸易方式资料.ppt
- 第十四章收入资料.ppt
- 2025年成都市玩偶生产荧光涂鸦互动玩偶开发可行性研究报告.docx
- 2025年成都市海绵生产用于体育馆室外运动场地透水改造可行性研究报告.docx
- 2025年天津市体操鞋企业团建运动应用报告.docx
- 2025年上海市溶洞极限运动(速降)场地开发可行性研究报告.docx
- 2025年上海市涵洞工程施工技术应用可行性研究报告.docx
- 2025年上海市体育场馆设施扎带安全防护可行性研究报告.docx
- 2025年上海市牦牛育肥产业园区建设可行性研究报告.docx
- 2025年旅拍宠物陪伴拍摄项目可行性研究报告.docx
- 2025年上海市进口食品节庆主题快闪店可行性研究报告.docx
- 2025年上海市洗选厂尾矿综合利用产业化可行性研究报告.docx
文档评论(0)