应用多元分析聚类分析newnew.ppt

  1. 1、本文档共171页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用多元分析聚类分析newnew

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 用D(i,j)表示这一类的直径,常用的直径有,欧氏距离: 当是单变量的时,也可以定义直径为: * 2、定义分类的损失函数 用b(n,k)表示将n个有序的样品分为k类的某种分法: 定义这种分类法的损失函数为:各类的直径之和。 * 由损失函数的构造可以看出,损失函数是各类的直径之和。如果分类不好,则各类的直径之和大,否则比较小。 当n和k固定时, L[b(n,k)]越小表示各类的离差平方和越小,分类是合理的。因此要寻找一种分法b(n,k),使分类损失函数L[b(n,k)]达到最小。记该分法为P[n,k]。 * 若分类数k是已知的,求分类法b(n,k),使它在损失函数意义下达到最小,其求法如下: 首先,找出分点jk,使 于是得第k类 3、最优解的求法 * 然后,找出jk-1,使它满足 于是得第k-1类 * 再然后,找出jk-2,使它满足 于是得第k-2类 类推。一直可以得到所有类G1,G2,…Gk,这就是所求得最优解。 * 4、L[b(n,k)]的递推公式 以上的两个公式的含义是,如果要找到n个样品分为k个类的最优分割,应建立在将j-1(j=2,3,…,n)个样品分为k-1类的最优分割的基础上。 * 分析儿童的生长期。有如下的资料是1-11岁的男孩平均每年的增重: 问男孩的发育可分为几个阶段。 年龄 1 2 3 4 5 6 7 8 9 10 11 增加重量(公斤) 9.3 1.8 1.9 1.7 1.5 1.3 1.4 2.0 1.9 2.3 2.1 * * * ? n k 2 3 4 5 6 7 8 9 10 3 0.005/2                 4 0.02/2 0.005/4               5 0.088/2 0.020/5 0.005/5             6 0.232/2 0.040/5 0.02/6 0.005/6           7 0.280/2 0.040/5 0.025/6 0.010/6 0.005/6         8 0.417/2 0.280/8 0.040/8 0.025/8 0.010/8 0.005/8       9 0.469/2 0.285/8 0.045/8 0.030/8 0.015/8 0.010/8 0.005/8     10 0.802/2 0.367/8 0.127/8 0.045/10 0.030/10 0.015/10 0.010/10 0.005/10   11 0.909/2 0.368/8 0.128/8 0.065/10 0.045/11 0.030/11 0.015/11 0.010/11 0.005/11 最小损失函数L[p(n,k) * * * * * * * * * * * * * * * * * * * * * * 4、聚类结果的解释和证实 对聚类结果进行解释是希望对各个类的特征进行准确的描述,给每类起一个合适的名称。这一步可以借助各种描述性统计量进行分析,通常的做法是计算各类在各聚类变量上的均值,对均值进行比较,还可以解释各类产别的原因。 * 如果是变量聚类分析,聚类分析做完之后,各类中仍有较多的指标。也就是说聚类分析并没有达到降维的目的。这就需要在每类中选出一个代表指标,具体做法是:假设某类中有 个指标,首先分别计算类内指标之间的相关指数 然后计算某个指标与类内其他指标之间相关指数的平均数,即取 最大的 ,做为该类的代表。 * 例 某公司下属30个企业,公司为了考核下属企业的经济效益,设计了8个指标。为了避免重复,需要对这8个指标进行筛选,建立一个恰当的经济效益指标体系。通过计算30个企业8个指标的相关系数距离,数据是1-r2。得如下表: ?x1 x2? ?x3 ?x4 x5? x6 ?x7 ?x8 ? x1 0 ? ? ? ? ? ? ? 0.60 0 ? ? ? ? ?

您可能关注的文档

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档