- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
K-means process Important: initial centroids or cluster centers and the number of clusters 注意:快速聚类需事先确定分几类 容易产生局部最优而非全局最优,初始分类很重要 初始类中心的确定 自动选择 必须给出允许分类的最大个数k 凭经验选择 可以先选取部分样本作系统聚类(例如用Ward‘s方法,它与K-means的分类原则很相似),以得到初始分类的类中心(并确定分类数),建立一个初始中心数据文件, 快速聚类的SPSS实现 快速聚类主对话框 指定分类数 先定初始类别中心,再按K-means算法叠代分类 仅按初始类别中心点分类 类中心的输入输出 “迭代”对话框:叠代终止准则 限定K-means算法的收敛判据:0N1,含义:当两次叠代计算的最小的类中心的变化距离小于初始类中心距离的N%时,叠代停止。 限定在每个观测量被分配到一类后,马上计算新的类中心。如不选此项,则在完成了所有观测量的一次分配后,再计算各类的类中心 “保存” 对话框 建立一个新变量记录分类结果(默认名:qx1_1)。 建立一个新变量记录各观测量距所属类中心间的欧式距离(默认名:qc1_2) “选项” 对话框 缺失值处理 将有缺失值的样本剔出 只有当样本的全部聚类变量都缺失时才剔出样本,否则根据非缺失变量分类 类别间距离差异是否显著的检验 例题输出结果 类别间距离差异均显著 轿车市场细分例-续 在系统聚类的基础上,用K-means进行进一步分析比较,确定最终分类数,并分析结果。 分别按照分3类、4类和5类进行快速聚类,比较结果。 对结果进行分析:计算各类平均得分 五、变量聚类法 分析的目的 了解变量间及变量组合间的亲疏关系 对变量进行分类 根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为重要变量,用少数几个重要变量进一步作分析计算,如进行回归分析或Q型聚类。 五、变量聚类法 变量聚类例 为了研究30个省、市、自治区1991年城镇居民消费的分布规律,对变量和样本分别进行聚类分析。月平均消费数据如表,其中:x1-人均粮食支出(元/人),x2-人均副食支出,x3-人均烟、酒、茶支出,x4-人均其他副食支出,x5人均衣着支出,x6-人均日用品支出,x7-人均燃料支出,x8-人均非商品支出 变量聚类例 先作样本聚类:类平均法、ward法 再作变量聚类 样本距离测度:夹角余弦或相关系数 类距离:最短距离法、最长距离法、类平均 注意:重心法、median、ward法都要求用欧式距离平方 数据 Ward法 类平均法 样品聚类结果 变量聚类:相关性强的指标归并到一起 相关系数 x1-人均粮食支出 x2-人均副食支出 x3-人均烟酒茶支出, x4-人均其他副食支出 x5人均衣着支出 x6-人均日用品支出, x7-人均燃料支出 x8-人均非商品支出 聚类分析 小结 1.聚类分析的概念 2.两种聚类思想:系统聚类、快速聚类 谱系图 确定分类数 3.Q-型聚类分析 4.R-型聚类分析 5.SPSS的聚类分析过程 6.聚类分析的结果评述 系统聚类的统计思想 对于位置类别的样本或变量,依据相应的定义把它们分为若干类,分类过程是一个逐步减少类别的过程,在每一个聚类层次,必须满足“类内差异小,类间差异大”原则,直至归为一类。评价聚类效果的指标一般是方差,距离小的样品所组成的类方差较小。 快速聚类的基本思想 动态聚类的方法源于数学中的迭代算法,就是当样品进行聚类时,先给定一个比较粗糙的初始分类,然后设计某种原则进行类别的修改,不断调整和改正这些类别的样品组成,直到比较合理为止。为了迅速找到一种初始分类,我们一般先选择一些凝聚点,让样品依照某种规则向凝聚点凝聚。动态凝聚的一般步骤是: 选凝聚点 初始分类 分类是否合理? 最终分类 修改分类 聚类分析的特点 不同聚类方法所得到的分类结果可能不同。 统计的优势在于每一种聚类过程可以在瞬间完成,因此可以进行大量尝试性的分析,并对结果进行比较,以便我们对数据做出更加合理的结论。 6个民族的粗死亡率与期望寿命 哈萨克与藏族的距离最短,最先合并形成新类CL7 新类CL7和其余四类的距离 第二次合并 新类和各类的距离 第三次合并 第四次合并 最后合并成一类 谱系图不显示实际距离,显示0-25的比例距离 树状图 冰柱图 1 2 3 4 5 融合在一起的为一类 (二)最长距离法 类与类之间的 距离是两类间 两两样品间的 最长距离 前例:最长距离法 第1次合并仍取最短欧式距离 新类和各类的距离:取最大值 第2次合并 新类和各类的距离:取最大值 第3次合并 第4次合并 最后合并 例题 5
您可能关注的文档
最近下载
- 2025年安徽皖江高速公路有限公司高速公路收费人员招聘笔试模拟试题及答案解析.docx VIP
- 人体结构与功能教案仅供参考.pptx VIP
- 物探报告范例.pdf VIP
- 三级养老护理员国家职业技能培训模块一项目三任务三协助老年人进行口腔吸痰.pptx VIP
- 2025年安徽皖江高速公路有限公司高速公路收费人员招聘考试备考题库及答案解析.docx VIP
- 2025年安徽皖江高速公路有限公司高速公路收费人员招聘笔试备考试题及答案解析.docx VIP
- 完整版2025年开学思政第一课.ppt VIP
- 2025年安徽皖江高速公路有限公司高速公路收费人员招聘考试备考试题及答案解析.docx VIP
- 写作载体与写作受体.ppt VIP
- 电子科技大学博士、硕士学位授权点一览表最终.docx VIP
文档评论(0)