7个径赛项目上的女子纪录的主成分分析处理.docxVIP

7个径赛项目上的女子纪录的主成分分析处理.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE PAGE # 7个径赛项目上的女子纪录的 主成分分析处理(总11页) -CAL-FENGHAI.-(YICAI)Company One 1 ■CAL■本页仅作为文档封面.使用请直接删除 7个径赛项目上的女子纪录的主成分分析处理 摘 要 本文通过主成分分析的相关方法,建立了评价55个国家和地区1984年 前在7个径赛项目上的女子纪录的数学模型。 针对前两个问题,通过求解样本相关矩阵,再根据主成分分析的相关方 法,利用MATLAB软件求得样本相关矩阵的特征值和相应正交单位化特征向量。 针对第三个问题,山第二个的求解结果进行相关的分析,确定两个主成分 的具体意义。第一主成分反应了各国家和地区的运动员的优秀程度;第二主成 分反映了各国家和地区在短跑和长跑项目上的相对实力。 针对笫四个问题,III前两个问题的求解结果,然后基于第一样本主成分的 得分对各国家和地区排序,得出的结果与从原始数据中得到的直观看法基本吻 合。 最后本文针对两种不同方式得出结果的差异性进行了分析。 关键词主成分分析;相关矩阵;贡献率;第一样本主成分 一、问题重述 在实际问题的研究中,往往会涉及众多有关的变量。但是变量太多不但会 增加计算的复杂性,而且也给合理的分析问题和解释问题带来了困难,一般来 说每个变量所提供的信息在一定程度上有所重叠,因而人们希望用为数较少的 互不相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析 达到解决问题的LI的,主成分分析便是在这种降维的思想下产生的处理高维数 据的方法([l])o 现请分析下表有关世界上55个国家和地区1984年前在7个径赛项目上的 女子纪录数据(见附录),解决如下问题: 求其样本相关矩阵R及它的特征值和相应正交单位化特征向量。 求前两个标准化样本主成分及其累计贡献率。 解释(2)中的两个主成分的意义。 基于第一样本主成分的得分对各国家和地区排疗;,这与你从原始数据中得到 的直观看法是否基本吻合? 二、 问题分析 分析问题可知,文中所给数据较多,首先要合理使用MATLAB软件对数据进 行处理;要求解文中问题,主要基于主成分分析法的相关方法。 山文中数据可知,所给的七个变量有着不同的量纲,这会引起各变量取值 的分散程度差异较大。若用协方差矩阵求主成分,则优先照顾了方差大的变 量,会造成很不合理的结果,为了消除III于量纲的不同可能带来的影响,故采 用变量标准化的方法,即用相关矩阵求解。 对于前两个问题,可直接使用MATLAB中的相关函数进行求解。求解结果可 用表格表示。 对于笫三个问题,需要利用笫二个问题求解出的第一主成分和笫二主成分 的表达式进行具体分析。 对于第四个问题,要先求各国家和地区的第一样本主成分的得分,然后再 根据得分的高低具体分析。 最后针对文中的求解过程与求解结果,讨论模型的不足之处与需要改进的 方法。 三、 模型假设 假设题中所给数据均准确有效。 四、符号表示 符号 含义 S R 儿 A A 入 5 样本协方差矩阵 样本相关矩阵 主成分(/ = 1,2,3--7) 特征值(/ = 1,2,3--7) 标准化特征向量(/ = 1,2,3-7) 第i个主成分的贡献率(心123…7) 五、模型建立与求解 本文运用主成分分析法对高维数据进行了降维处理,其间通过求解样本的 协方差矩阵与相关矩阵来分析主成分,期望通过较少的变量来反映样本数据的 绝大部分信息,假设当主成分的累计贡献率达到80%时,即视为满足了提取原 数据中绝大部分信息的要求。模型建立与求解如下: 模型建立 第i个观测数据记作设(xpx2,-,xj是”元总体,从中取得样本数据: 第i个观测数据记作 称为样品,引进样本数据观测矩阵 X11 X2\ 兀22 它是pxn矩阵,它的〃个列即是〃个样品九心,…心,它们组成来自元总体 的样本。观测矩阵X的卩个行变量分别是p个变量 X\X …、Xp 在川次试验中所取得的值。样本协方差矩阵及相关矩阵分别为 R =(?) R =(?) 其中 J = 兀=一力心,J = 12 n ?-i 1 ” r % =— 为(几一E)(兀一耳)i?j =、2…、P 11 一1 /-I 利用S和R求得的样本组成分有下述结论: 设S = gp“是样本协方差矩阵,其特征值为^A22p0,相应的 正交单位化向量为占鸟,…尙,这里£=?,右2,…吊卩,则第「个样本主成分为 X = 、=占內 + ei2x2 + …+ 錦心, i = 1,2,…,p 其中x = 6‘2,…,亏丿为的X的任一观测值。当依次代入X的“个观测值 兀=(心,叫2,1%丿仗=1,2,-,“)时,便得到第i个样本主成分儿的”个观测值 坯伙=1,2,…丿),此即为第i个主成分的得分。 为消除量纲的影响,我们可以对样本进行标准化,即令 则标

文档评论(0)

尐丶丑 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档