个径赛项目上的女子纪录的主成分分析处理.docxVIP

个径赛项目上的女子纪录的主成分分析处理.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE PAGE # 7 个径赛项目上的女子纪录的主成分分析处理 摘 要 本文通过主成分分析的相关方法,建立了评价 55 个国家和地区 1984 年 前在 7 个径赛项目上的女子纪录的数学模型。 针对前两个问题,通过求解样本相关矩阵,再根据主成分分析的相关方法, 利用MATLAB^件求得样本相关矩阵的特征值和相应正交单位化特征向量。 针对第三个问题, 由第二个的求解结果进行相关的分析, 确定两个主成分的 具体意义。 第一主成分反应了各国家和地区的运动员的优秀程度; 第二主成分反 映了各国家和地区在短跑和长跑项目上的相对实力。 针对第四个问题, 由前两个问题的求解结果, 然后基于第一样本主成分的得 分对各国家和地区排序,得出的结果与从原始数据中得到的直观看法基本吻合。 最后本文针对两种不同方式得出结果的差异性进行了分析。 关键词 主成分分析;相关矩阵;贡献率;第一样本主成分 一、问题重述 在实际问题的研究中, 往往会涉及众多有关的变量。 但是变量太多不但会增 加计算的复杂性, 而且也给合理的分析问题和解释问题带来了困难, 一般来说每 个变量所提供的信息在一定程度上有所重叠, 因而人们希望用为数较少的互不相 关的新变量来反映原变量所提供的绝大部分信息, 通过对新变量的分析达到解决 问题的目的,主成分分析便是在这种降维的思想下产生的处理高维数据的方法 ([1]) 。 现请分析下表有关世界上 55个国家和地区 1984年前在 7 个径赛项目上的女 子纪录数据 (见附录 ),解决如下问题: 求其样本相关矩阵 R 及它的特征值和相应正交单位化特征向量。 求前两个标准化样本主成分及其累计贡献率。 解释 (2) 中的两个主成分的意义。 基于第一样本主成分的得分对各国家和地区排序,这与你从原始数据中得到 的直观看法是否基本吻合 ? 二、问题分析 分析问题可知,文中所给数据较多,首先要合理使用 MATLAB 软件对数据 进行处理;要求解文中问题,主要基于主成分分析法的相关方法。 由文中数据可知, 所给的七个变量有着不同的量纲, 这会引起各变量取值的 分散程度差异较大。 若用协方差矩阵求主成分, 则优先照顾了方差大的变量, 会 造成很不合理的结果, 为了消除由于量纲的不同可能带来的影响, 故采用变量标 准化的方法,即用相关矩阵求解。 对于前两个问题,可直接使用 MATLAB 中的相关函数进行求解。求解结果 可用表格表示。 对于第三个问题,需要利用第二个问题求解出的第一主成分和第二主成分的 表达式进行具体分析。 对于第四个问题, 要先求各国家和地区的第一样本主成分的得分, 然后再根 据得分的高低具体分析。 最后针对文中的求解过程与求解结果, 讨论模型的不足之处与需要改进的方 法。 三、模型假设 假设题中所给数据均准确有效。 四、符号表示 符号 含义 S 样本协方差矩阵 R yi 样本相关矩阵 主成分i 1,2,3 7 ? i e hi 特征值i 1,2,3 7 标准化特征向量i 1,2,3 7 第i个主成分的贡献率i 1,2,3 7 五、模型建立与求解 本文运用主成分分析法对高维数据进行了降维处理, 其间通过求解样本的协 方差矩阵与相关矩阵来分析主成分,期望通过较少的变量来反映样本数据的绝大 部分信息,假设当主成分的累计贡献率达到 80 %时,即视为满足了提取原数据 中绝大部分信息的要求。模型建立与求解如下: 5.1模型建立 设X1,X2, ,Xp T是p元总体,从中取得样本数据: X11 , X12 ,(X21 , X22 , X11 , X12 , (X21 , X22 , ,X1p ,X2p) (Xn1 , Xn2 , ,Xnp) 第i个观测数据记作 T Xi Xi1 , Xi2 , , Xp ,, 称为样品,引进样本数据观测矩阵 X11 X21 Xn1 X12 X22 X Xn2 X1 p X2 p Xnp T T T ( n个样品 Xi X2 它是p n矩阵,它的n个列即是 i 1,2, ,n) Xn x2, ,Xn ,它们组成来自p元总体 Xi,X2, ,Xp T的样本。观测矩阵X的p个行变量分别是p个变量Xi,X, , Xp 在n次试验中所取得的值。样本协方差矩阵及相关矩阵分别为 1 n _ _ (Xk X)(Xk X)T n 1 i 1 R (m)pp R (m)pp Sij sii Sjj 其中 nXij1 n Xij 1 Xi ,i 1,2, / — \ T 1 X (X1,X2, ,Xp) , Xj — n i 1 n _ _ T 1,2,i. jSj 一- (Xki X)(Xk Xj)T 1,2, i. j n 1 i 1 利用S和R求得的样本组成分有下述结论: 设S (Sj) p p是样本协方差

文档评论(0)

zhongshanmen001 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档