多元统计方法应用研究简介3-主成分及分析b.docVIP

多元统计方法应用研究简介3-主成分及分析b.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主成分分析 问题的实际背景 在许多实际问题中,会涉及到许多变量。并且,由于这些变量自身之间存在一定的相关性,使得它们作为单个变量来说,都是不显著的,但是,作为一个整体,它们却是显著的。 若直接用这些变量构建模型,则模型将会变得相当复杂;若去掉一些变量,则模型将难以正确地解释实际问题。因此,在对这类问题构建数学模型时,希望压缩变量个数,简化问题。即根据原始变量,构造一个或几个“综合变量”。用这些综合变量代表原始变量。 主成分分析就是利用观测数据,将许多变量压缩为少数几个变量,构造综合变量的统计方法。 基本模型 假设有可观察的原始随机向量,它的期望,协方差矩阵。 对于这个可观察的随机变量()(指标)。希望构造它们的个线性组合(“综合”变量) 使得可以用这些新变量(指标)y的变化来解释原变量(指标)x的大部分变化,从而达到用这k个变量(指标)来代表原始的p个变量(指标)的目的。 主成分分析的任务是寻找,使得最大。由于当乘以任何大于1的常数会使该方差无限制增大,故在寻找时,要求。一般的,有 若是优化模型的解,则称是x的第一主成分; 若是优化模型的解,则称是x的第二主成分; 一般的,若是优化模型,的解,则称是x的第i主成分。 基本结论 注意,x的协方差矩阵V至少是半正定矩阵,故V的特征值均大于或等于零。将V的非零特征值从大到小依次记为。其相应的正交化单位特征向量分别记为。 定理1 x的第i主成分是,且 ; ,。 定理2 设y是x的(顺序)主成分向量,则 定理3 设y是x的(顺序)主成分向量,则主成分与原始变量的相关系数是 。 这三个定理表明,主成分的系数是x的协方差矩阵的特征值,且主成分间独立;所有主成分的方差之和等于所有原始变量的方差之和。 主成分的意义 是的线性组合,可以认为是的一个“综合”。主成分分析就是利用线性变换,将p个随机向量按“总方差”分解为r个互不相关的“综合”随机变量,且这些“综合”变量的方差从小到大顺序排列。 比值 表示了的方差在总方差中所占的比重,称为的贡献率。 该比值的大小表明了主成分对原随机变量x的“综合”能力。它越大,表明其综合能力越强,用的变异去解释x的变异的能力越强。因此,才将()称为()的主成分。进而,在实际过程中,用代替x。 标准化变量的主成分分析 在实际问题中,随机变量x的各分量的量纲一般是不同的,若它们的差别太大,则通常需要先进行标准化处理,再进行所要求的分析。但是有例子表明,用标准化变量得到的主成分与直接用原始变量得到的主成分是不同的。 主成分的实际计算与运用 在实际应用中,随机向量x的协方差矩阵V通常是未知的,但可以得到x的观察值。此时,可用V的估计量来代替V。常用的V的估计量是样本协方差矩阵。记I是单位方阵,J是元素全为1的方阵, , 分别是随机向量x的样本观测矩阵和平均值向量,则随机向量x的样本协方差矩阵是 计算样本协方差矩阵s的特征值及对应的正交化单位特征向量再令 , 则y是由x的各个主成分组成的向量。此时,主成分观测矩阵是。 在实际应用过程中,为了达到压缩变量的目的,通常不使用所有的主成分,只使用前几个主成分。一般来说,当达到85%左右时,取前k个主成分即可。或者用所谓的“滚石图”来确定要保留的主成分。 主成分分析是压缩变量,简化问题的一个有效的统计方法,但是,在实际使用中,主成分的实际意义不好解释,一般都是通过组合系数的大小来解释主成分的实际意义。 例2:经专家分析,认为影响电力需求(y)的主要因素是钢产量(x1)、生铁产量(x2)、钢材产量(x3)、有色金属产量(x4)、原煤产量(x5)、水泥产量(x6)、机械工业总产值(x7)、化肥产量(x8)、硫酸产量(x9)、烧碱产量(x10)和棉纱产量(x11)(数据见文件“例题数据-主成分分析.xls”)。试建立电力需求模型。 . .

文档评论(0)

ygxt89 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档