数据的分类—聚类分析和模型讲解.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * 例如对某一类企业经济效益作评占,影响企业经济效益就有许多指标,很难直接比较其优劣,听以解决评估问题的焦点就是希望科学、客观地将一个多指标问题综合成一个单指标的形式,也就是说只有在一维空间中才能使排序评估成为可能,因此产生了许许多多评估方法。鉴于系统评估在社会、经济等许多领域中有着广泛而重要的应用,下面介绍三种方法。 第一种方法,利用主成分F1…,Fp做线性组合,并以每个主成分 Fi 的方差贡献率 作为权数构造一个综合评价函数: 也称 y 为评估指数,依据对每个系统计算出的 y 值大小进行排序比较或分类划级。 * * 这一方法目前在一些专业文献中都有介绍,但在实践中经常看到它的应用效果并不理想,主要原因是产生主成分的特征向量的各分量符号不一致,很难进行排序评估,因此有下面的改进方法。 第二种方法,只用第一个主成分作评估指数即Y=F1,理由是:第一主成分与原始变量X1,…,Xp综合相关度最强即 从这个意义上看,如果想以一个综合变量来代替原来所有原始变量,则最佳选择应该是F1,另一方面由于第一主成分F1对应于数据变异最大的方向也就是使数据信息损失最小,精度最高的一维综合变量。但值得指出的是使用这种方法是有前提条件的即要求所有评估指标变量都是正相关 * * 的,也就是说对听有变量均有同增、同减的趋势,这个前提条件是基于代数中的Frobinius定理。 定理 若相关系数阵 中的每一个元素都是 正值,即 对一切 则只矩阵的第一个特征 向量中的所有分量均大于零,即 如果不满足这个前提条件,在原变量系统中X1,…,Xp有一部分变量正相关,另一部分变量负相关,则无法保证第一个特征向量u1o,因此生成的F1有一部分与原变量正相关与另一部分变量负相关甚至于一部分变量无关,这时很难以 n取值的大小来排序。特别是当出现某一分量 时使用Fq作为评估指数,更要慎重防止遗漏 上的重要信息。 * * 第三种方法是在前两种方法的基础上又作了改进,具体做法. (1)将原始资料阵 进行标准化处理记为 标准化后的变量记为 (2)令 即根据变量的重要程度 赋予权数, 重要的变量取 大些,这时 因此,各变量的方差分别为 由于一部分在系统评估中更为重要的变量被赋予更大的权 * * 因此在这些指标上,变量的变差被拉长,于是在求第一主成分时,这些指标会得到更多的重视。 (3)对标准化又加权后的数据阵 计算协差阵 求 的最大特征值 和特征向量 (4)令 然后按 进行排序 比较或分类划级。 6.除本章介绍的主成分分析之外,还有主成分回归和加权主成分分析等。顾名思义,主成分回归,就是把各主成分作为新的自变量代替原变量作回归,在一般情况下它可以克服多重共线性带来的干扰。所谓加权主成分分析是当原来指标X1,…Xp的重要程度存在较大差异时,这时对原指标应辅以加权,即相当于用一个权数阵 * * 去乘 而得出 其中 然后对作主 成分分析. * * 1、用主成分分析研究股票内在的联系。 2、对国民经济增长方式作主成分分析。 3、房地产指标的主成分分析。 思考题 * * 的一切线性组合中方差最大的。 如何求满足上述要求的方程组的系数aij呢?下一节将会看到每个方程式中的系数向量 不是别的而恰好是X的协差阵 所对应的特征向量;也就是说,数学上可以证明使Var(F1)达到最大,这个最大值是在 的第一个特征值所对应特征向量处达到。依此类推使Var(Fp)达到最大值是在 的 的特征值 * * 第p个特征值所对应特征向量处达到。 这里要说明两点:一个是数学模型中为什么作线性组合?基于两种原因:①数学上容易处理;②在实践中效果很好。另一个要说明的是每次主成分的选取使Var(Fi)最大,如果不加限制就可使Var(Fi) 则就无意义了,而常用的限制是要求 (2 )主成分的几何意义 从代数学观点看主成分就是p个变量X1…,Xp的一些特殊的线性组合,而在几何上这些线性组合正是把X1,…,Xp构成的坐标系旋转产生的新坐标系,新坐标轴使之通过样品变差最大的方向(或说具有最大的样品方差)。下面以最简单的二元正态变量来说明主成分的几何意义。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 主成分分析的几何解释 平移、旋转坐标轴 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

文档评论(0)

beautyeve + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档