- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
先做一些简单的计算: 4号和6号得分离差的平方和: (21-20)2 + (23-23)2 + (22-22)2 = 1 1号和2号得分离差的平方和: (28-18)2 + (29-23)2 + (28-18)2 = 236 1号和3号得分离差的平方和为 482。 由此可见,4号和6号的“距离”较近,1号和2号的“距离”较远,1号和3号的“距离”更远。 由此,我们的考虑是否可以用“距离”将不同的应聘者分类。 问题:如何选择样品间相似的测度指标,如何将有相似性的类连接起来? 距 离 距 离 1. 欧式(Euclidian )距离 实例计算 Euclidian距离 欧式距离的平方(Squared Euclidian Distance) Euclidian距离的平方 2. 明氏(Minkowski)距离 变量标准化 3. Mahalanobis 距离 4. Lance和Williams 距离 5. 斜交空间距离 6. 配合距离 相似系数 1. Pearson相关系数 2. 夹角余弦(Cosine) 系统聚类法(hierarchical clustering method) 最短距离法(single linkage,nearest neighbor) 最长距离法(complete linkage, furthest neighbor) 中间距离法(median clustering) 中间距离法的变形—可变法 类平均法(average linkage between group) 可变类平均法(flexible-beta method) 重心法(centroid method) Ward最小方差法(Ward’ minimum variance method) 有关问题 分类结果 SPSS还提供了第三种聚类方法 TwoStep Cluster: 智能聚类方法,用于聚类的变量可以是连续变量或离散变量。占用内存少,运算速度快。 分两个步骤完成: 1、预聚类:通过构建和修改聚类特征树完成。 2、正式聚类:以第一步完成的预聚类作为输入,对之进行再聚类。(这一步是用层次聚类法完成的) 两步聚类法功能强大,但原理较为复杂。 例:患有某种疾病的500例患者的数据见drug.sav。通过聚类方法对病人进行归类,以便更好地分析这种病例的特征。 连续变量默认进行标准化 样本被分为1~15类时的BIC值 相邻两类的间距比,3个峰值 连续变量的分类特征 Within Cluster Percentage Categorical Variablewise Importance Continuous Variablewise Importance SPSS上机练习 中、美、法等七国裁判和体育爱好者对体操比赛选手的评分情况如judges.sav。请根据打分的差异对裁判进行分类。 练习1: 对变量进行聚类 欧几里得距离的平方 如果变量间单位不同或数值差异较大,则需要进行标准化 聚类方法: 类平均法 给出每一步类合并的具体情况及相应类之间的距离 希望分类的个数 相似矩阵 给出系统树图 Average Linkage (Between Groups) 第一步变量2和4合并,第二步3和5合并,第三步2(4)合并6,依次类推,直到所有变量全部合并。 Dendrogram 练习2:在plastic.sav的数据中,根据有关知识,认为20种塑料可以被分为3类。请根据tear_res ,gloss和opacity的取值对其进行分类 指定分3类 K-means cluster 三类中心的初始位置。 迭代3次后收敛。 6个民族的粗死亡率与期望寿命 6个民族的粗死亡率与期望寿命(最短距离法) 样品间:欧氏距离类类间:两类间的距离取两样品间最长的距离。 K L J M √ 6个民族的粗死亡率与期望寿命(最长距离法) (最短距离法) 最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离 K L J M √ SPSS作为默认方法,称为 between-groups linkage K L J M 类平均法的变型 K L J M B2 A2 * * A1 B1* * * B3 类类间的距离用各自重心间的距离表示 先将n个样品各自成一类,然后每次每缩小一类,每缩小一类离差平方和就要增加,选择使离差平方和增加(SSM
原创力文档


文档评论(0)