- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE
PAGE #
7 个径赛项目上的女子纪录的主成分分析处理
摘 要 本文通过主成分分析的相关方法,建立了评价 55 个国家和地区 1984 年 前在 7 个径赛项目上的女子纪录的数学模型。
针对前两个问题,通过求解样本相关矩阵,再根据主成分分析的相关方法, 利用MATLAB^件求得样本相关矩阵的特征值和相应正交单位化特征向量。
针对第三个问题, 由第二个的求解结果进行相关的分析, 确定两个主成分的 具体意义。 第一主成分反应了各国家和地区的运动员的优秀程度; 第二主成分反 映了各国家和地区在短跑和长跑项目上的相对实力。
针对第四个问题, 由前两个问题的求解结果, 然后基于第一样本主成分的得 分对各国家和地区排序,得出的结果与从原始数据中得到的直观看法基本吻合。
最后本文针对两种不同方式得出结果的差异性进行了分析。
关键词 主成分分析;相关矩阵;贡献率;第一样本主成分
一、问题重述
在实际问题的研究中, 往往会涉及众多有关的变量。 但是变量太多不但会增 加计算的复杂性, 而且也给合理的分析问题和解释问题带来了困难, 一般来说每 个变量所提供的信息在一定程度上有所重叠, 因而人们希望用为数较少的互不相 关的新变量来反映原变量所提供的绝大部分信息, 通过对新变量的分析达到解决 问题的目的,主成分分析便是在这种降维的思想下产生的处理高维数据的方法 ([1]) 。
现请分析下表有关世界上 55个国家和地区 1984年前在 7 个径赛项目上的女 子纪录数据 (见附录 ),解决如下问题:
求其样本相关矩阵 R 及它的特征值和相应正交单位化特征向量。
求前两个标准化样本主成分及其累计贡献率。
解释 (2) 中的两个主成分的意义。
基于第一样本主成分的得分对各国家和地区排序,这与你从原始数据中得到 的直观看法是否基本吻合 ?
二、问题分析
分析问题可知,文中所给数据较多,首先要合理使用 MATLAB 软件对数据 进行处理;要求解文中问题,主要基于主成分分析法的相关方法。
由文中数据可知, 所给的七个变量有着不同的量纲, 这会引起各变量取值的 分散程度差异较大。 若用协方差矩阵求主成分, 则优先照顾了方差大的变量, 会 造成很不合理的结果, 为了消除由于量纲的不同可能带来的影响, 故采用变量标 准化的方法,即用相关矩阵求解。
对于前两个问题,可直接使用 MATLAB 中的相关函数进行求解。求解结果 可用表格表示。
对于第三个问题,需要利用第二个问题求解出的第一主成分和第二主成分的 表达式进行具体分析。
对于第四个问题, 要先求各国家和地区的第一样本主成分的得分, 然后再根 据得分的高低具体分析。
最后针对文中的求解过程与求解结果, 讨论模型的不足之处与需要改进的方 法。
三、模型假设
假设题中所给数据均准确有效。
四、符号表示
符号
含义
S
样本协方差矩阵
R
yi
样本相关矩阵
主成分i 1,2,3 7
?
i
e
hi
特征值i 1,2,3 7
标准化特征向量i 1,2,3 7
第i个主成分的贡献率i 1,2,3 7
五、模型建立与求解
本文运用主成分分析法对高维数据进行了降维处理, 其间通过求解样本的协 方差矩阵与相关矩阵来分析主成分,期望通过较少的变量来反映样本数据的绝大 部分信息,假设当主成分的累计贡献率达到 80 %时,即视为满足了提取原数据 中绝大部分信息的要求。模型建立与求解如下:
5.1模型建立
设X1,X2, ,Xp T是p元总体,从中取得样本数据:
X11 , X12 ,(X21 , X22 ,
X11 , X12 ,
(X21 , X22 ,
,X1p
,X2p)
(Xn1 , Xn2 ,
,Xnp)
第i个观测数据记作
T
Xi Xi1 , Xi2 , , Xp ,,
称为样品,引进样本数据观测矩阵
X11 X21
Xn1
X12 X22
X
Xn2
X1 p X2 p
Xnp
T
T
T
(
n个样品
Xi X2
它是p n矩阵,它的n个列即是
i 1,2, ,n)
Xn
x2,
,Xn ,它们组成来自p元总体
Xi,X2, ,Xp T的样本。观测矩阵X的p个行变量分别是p个变量Xi,X, , Xp 在n次试验中所取得的值。样本协方差矩阵及相关矩阵分别为
1 n _ _
(Xk X)(Xk X)T
n 1 i 1
R (m)pp
R (m)pp
Sij
sii Sjj
其中
nXij1
n
Xij
1
Xi
,i 1,2,
/ — \ T 1
X (X1,X2, ,Xp) , Xj —
n i
1 n _ _ T
1,2,i. jSj 一- (Xki X)(Xk Xj)T
1,2,
i. j
n 1 i 1
利用S和R求得的样本组成分有下述结论:
设S (Sj) p p是样本协方差
您可能关注的文档
- 个人职业素质与能力提升计划范文.doc.docx
- 个人能力的提升工作计划.docx
- 个人课题结题评审方案.docx
- 个人花销计划.docx
- 个人货币兑换协议.docx
- 个人转型升级工作总结.docx
- 个人远程教育学习总结.docx
- 个企业员工福利方案.docx
- 个体主义还是整体主义社会工作核心价值观及其反思.docx
- 个体决策与群体决策的案例分析.docx
- GB 4789.11-2014 好 溶血性链球菌 自学.ppt
- GB 4789.36-2016 大肠埃希氏菌O157:H7NM检验 好.ppt
- ADI高速、混合、微弱信号布线指南.pdf
- GBT 4789-13产气荚膜梭状芽孢杆菌检验.ppt
- GB 4789.12-2016 肉毒梭菌及其毒素检验 好.ppt
- BIM机场T3航站楼案例.ppt
- GB 4789.10-2016好 金黄色葡萄球菌检验 包含定性、计数和毒素测定.ppt
- GBT 4789.15,16 -2016 霉菌和酵母计数和检验.ppt
- 浙江省及下辖各市经济财政实力与债务研究(2025)-新世纪评级.pdf
- 赢创中国:2024年可持续发展实践报告.pdf
原创力文档


文档评论(0)