数学建模讲义二.pptVIP

  • 5
  • 0
  • 约1.6千字
  • 约 10页
  • 2017-05-10 发布于浙江
  • 举报
数学建模讲义二

数 学 建 模 —现代统计分析方法 * * 内蒙古财经学院王春枝 2009年8月 第二讲 主成分分析与因子分析 在许多实际问题中,涉及的变量众多,各变量间还存在错综复杂的相关关系,这时最好能从中提取少数综合变量,这些综合变量彼此不相关,而且包含原变量提供的大部分信息。因子分析就是为解决这一问题提供的统计分析方法。 【主成分分析】 主成分分析只是一种中间手段,其背景是研究中经常会遇到多指标的问题,这些指标间往往存在一定的相关,直接纳入分析不仅复杂,变量间难以取舍,而且可能因多元共线性而无法得出正确结论。主成分分析的目的就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标,从而在不丢掉主要信息的前提下避开了变量间共线性的问题,便于进一步分析。 【因子分析】 因子分析也是一种将多变量化简的技术,它可以被看成是主成分分析的推广。因子分析的目的是分解原始变量,从中归纳出潜在的“类别”,相关性较强的指标归为一类,不同类间变蚤的相关性则较低。每一类变量代表了一个“共同因子”,即一种内在结构,因子分析就是要寻找该结构。 【适用条件】 主成分分析的目的是提取信息,对样本量没有太严格的要求。因子分析则不同,它更多的是寻找内在结构,因此要求样本量比较充足,否则可能无法得到稳定和准确的结果。根据Gorsuch(1983)的观点,因子分析时的样本量要求如下: 样本量与变量数的比例应在5:1以上,实际上理想的样本量应为变量数的10--25倍,但这很难做到。5一10倍之间虽略显不足,但一般都能得到较好的结果。 总样本量不得少于100,而且原则上越大越好。 除了根据专业知识来估计外,还可以使用KMO统计量和Sartletts球形检验加以判定。 KMQ统计量:用于探查变量间的偏相关性,它比较的是各变量间的简单相关和偏相关的大小,KMO统计量接近1,做因子分析的效果好。一般认为当KMO大于0.9时效果最佳,0.7以上时效果尚可,0.6时效果很差,0.5以下时不适宜做因子分析。 Bartletts球形检验:用于检验相关阵是否是单位阵,即各变量是否各自独立。如果结论为不拒绝该假设,则说明这些变量可能各自独立提供一些信息,之间恐怕没什么联系。 2.1 主成分分析 一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。 在进行主成分分析后,竟以97.4%的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。 这里每一列代表一个主成分作为原来变量线性组合的系数。比如第一主成分作为数学、物理、化学、语文、历史、英语这六个原先变量的线性组合,系数为-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。 主成分回归 利用主成分的互不相关性来建立因变量与主成分的回归,在理论上可以消除多重共线性。 2.2 因子分析 因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义; 主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因子模型。 主成分分析:原始变量的线性组合表示新的综合变量,即主成分; 因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。 应用例:综合评价 因子分析得到的公共因子应该可以解释,即有实际意义。否则,就应该重新设计原始变量集合。 *

文档评论(0)

1亿VIP精品文档

相关文档