个径赛项目上的女子纪录的主成分分析处理.docxVIP

下载本文档

4
0
约1.2万字
约 11页
2021-12-10 发布于天津
举报
版权申诉

个径赛项目上的女子纪录的主成分分析处理.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE PAGE # 7 个径赛项目上的女子纪录的主成分分析处理摘要本文通过主成分分析的相关方法，建立了评价 55 个国家和地区 1984 年前在 7 个径赛项目上的女子纪录的数学模型。针对前两个问题，通过求解样本相关矩阵，再根据主成分分析的相关方法，利用MATLAB^件求得样本相关矩阵的特征值和相应正交单位化特征向量。针对第三个问题，由第二个的求解结果进行相关的分析，确定两个主成分的具体意义。第一主成分反应了各国家和地区的运动员的优秀程度；第二主成分反映了各国家和地区在短跑和长跑项目上的相对实力。针对第四个问题，由前两个问题的求解结果，然后基于第一样本主成分的得分对各国家和地区排序，得出的结果与从原始数据中得到的直观看法基本吻合。最后本文针对两种不同方式得出结果的差异性进行了分析。关键词主成分分析；相关矩阵；贡献率；第一样本主成分一、问题重述在实际问题的研究中，往往会涉及众多有关的变量。但是变量太多不但会增加计算的复杂性，而且也给合理的分析问题和解释问题带来了困难，一般来说每个变量所提供的信息在一定程度上有所重叠，因而人们希望用为数较少的互不相关的新变量来反映原变量所提供的绝大部分信息，通过对新变量的分析达到解决问题的目的，主成分分析便是在这种降维的思想下产生的处理高维数据的方法 ([1]) 。现请分析下表有关世界上 55个国家和地区 1984年前在 7 个径赛项目上的女子纪录数据 (见附录 )，解决如下问题：求其样本相关矩阵 R 及它的特征值和相应正交单位化特征向量。求前两个标准化样本主成分及其累计贡献率。解释 (2) 中的两个主成分的意义。基于第一样本主成分的得分对各国家和地区排序，这与你从原始数据中得到的直观看法是否基本吻合 ? 二、问题分析分析问题可知，文中所给数据较多，首先要合理使用 MATLAB 软件对数据进行处理；要求解文中问题，主要基于主成分分析法的相关方法。由文中数据可知，所给的七个变量有着不同的量纲，这会引起各变量取值的分散程度差异较大。若用协方差矩阵求主成分，则优先照顾了方差大的变量，会造成很不合理的结果，为了消除由于量纲的不同可能带来的影响，故采用变量标准化的方法，即用相关矩阵求解。对于前两个问题，可直接使用 MATLAB 中的相关函数进行求解。求解结果可用表格表示。对于第三个问题，需要利用第二个问题求解出的第一主成分和第二主成分的表达式进行具体分析。对于第四个问题，要先求各国家和地区的第一样本主成分的得分，然后再根据得分的高低具体分析。最后针对文中的求解过程与求解结果，讨论模型的不足之处与需要改进的方法。三、模型假设假设题中所给数据均准确有效。四、符号表示符号含义 S 样本协方差矩阵 R yi 样本相关矩阵主成分i 1,2,3 7 ? i e hi 特征值i 1,2,3 7 标准化特征向量i 1,2,3 7 第i个主成分的贡献率i 1,2,3 7 五、模型建立与求解本文运用主成分分析法对高维数据进行了降维处理，其间通过求解样本的协方差矩阵与相关矩阵来分析主成分，期望通过较少的变量来反映样本数据的绝大部分信息，假设当主成分的累计贡献率达到 80 %时，即视为满足了提取原数据中绝大部分信息的要求。模型建立与求解如下： 5.1模型建立设X1,X2, ,Xp T是p元总体，从中取得样本数据: X11 , X12 ,(X21 , X22 , X11 , X12 , (X21 , X22 , ,X1p ,X2p) (Xn1 , Xn2 , ,Xnp) 第i个观测数据记作 T Xi Xi1 , Xi2 , , Xp ,，称为样品，引进样本数据观测矩阵 X11 X21 Xn1 X12 X22 X Xn2 X1 p X2 p Xnp T T T ( n个样品 Xi X2 它是p n矩阵，它的n个列即是 i 1,2, ,n) Xn x2, ,Xn ,它们组成来自p元总体 Xi,X2, ,Xp T的样本。观测矩阵X的p个行变量分别是p个变量Xi，X, , Xp 在n次试验中所取得的值。样本协方差矩阵及相关矩阵分别为 1 n _ _ (Xk X)(Xk X)T n 1 i 1 R (m)pp R (m)pp Sij sii Sjj 其中 nXij1 n Xij 1 Xi ,i 1,2, / — \ T 1 X (X1,X2, ,Xp) ， Xj — n i 1 n _ _ T 1,2,i. jSj 一- (Xki X)(Xk Xj)T 1,2, i. j n 1 i 1 利用S和R求得的样本组成分有下述结论：设S (Sj) p p是样本协方差