- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
§8 主成分分析的应用
主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少数几个新变量并使它们尽可能多地包含原变量的信息(降维),从而使得用这几个新变量替代原变量分析问题成为可能。即在尽可能少丢失信息的前提下从所研究的个变量中求出几个新变量,它们能综合原有变量的信息,相互之间又尽可能不含重复信息,用这几个新变量进行统计分析(例如回归分析、判别分析、聚类分析等等)仍能达到我们的目的。
设有个样品,个变量(指标)的数据矩阵
寻找个新变量,使得
1、
2、彼此不相关
这便是主成分分析。主成分的系数向量的分量刻划出第个变量关于第个主成分的重要性。
可以证明,若为维随机向量,它的协方差矩阵的个特征值为,相应的标准正交化的特征向量为,则的第主成分为。
称为主成分的贡献率,为主成分的累计贡献率,它表达了前个主成分中包含原变量的信息量大小,通常取使累计贡献率在85%以上即可。当然这不是一个绝对不变的标准,可以根据实际效果作取舍,例如当后面几个主成分的贡献率较接近时,只选取其中一个就不公平了,若都选入又达不到简化变量的目的,那时常常将它们一同割舍。
计算步骤如下:
1、由已知的原始数据矩阵计算样本均值向量;
其中
2、计算样本协方差矩阵
其中
3、把原始数据标准化,即,记。形成样本相关矩阵;
4、求的特征根及相应的标准正交化的特征向量,可得主成分为。
关于主成分的实际意义,要结合具体问题和相关的专业知识才能给出合理的解释。
例1 下表是10名初中男学生的身高(),胸围(),体重()的数据,试进行主成分分析。
身高()/cm 胸围()/cm 体重()/kg 149.5 69.5 38.5 162.5 77.0 55.5 162.7 78.5 50.8 162.2 87.5 65.5 156.5 74.5 49.0 156.1 74.5 45.5 172.0 76.5 51.0 173.2 81.5 59.5 159.5 74.5 43.5 157.7 79.0 53.5 由表中数据计算得到
解出的三个特征值和相应的三个标准正交化的特征向量为
, ,
由于三个主成分的贡献率分别为
当保留前两个主成分时,累计贡献率已达98.86%,因此第三个主成分可以舍去。得到的前两个样本主成分的表达式为
现在我们来解释这两个主成分的意义,从的表达式可以看出,是身高、胸围、体重三个变量的加权和,当一个学生的数值较大时,可以推断其或较高或较胖或又高又胖,故是反映学生身材魁梧与否的综合指标。的表达式中系数的符号为一正()两负(,),当一个学生的数值较大时,表明其大,而,小,即为瘦高个,故是反映学生体形特征的综合指标。
需要指出的是,虽然利用主成分本身可对所涉及的变量之间的关系在一定程度上作分析,但这往往并不意味着分析问题的结束。主成分分析本身往往并不是最终目的,而只是达到某种目的的一种手段。很多情况下,主成分分析只是作为对原问题进行统计分析的中间步骤,目的是利用主成分变量代替原变量作进一步的统计分析,达到减少变量个数的效果。例如,利用主成分变量作回归分析、判别分析、聚类分析等等。
下面再举一个利用主成分进行样品排序的例子。
例2 电子工业部所属的15个工厂某年份的经济效益数据如下表。其中
—资金利税率(%)
—固定资产利税率(%)
—流动资金利税率(%)
—全员利税率(%)
—成本利税率(%)
—流动资金周转天数
厂序 经济效益排序 值 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15 69.87 269.10 94.38 115.74 23.85 74
66.31 260.00 89.01 93.30 40.09 80
67.26 272.54 89.29 78.90 26.70 84
68.46 250.18 94.24 76.87 24.98 18
39.45 146.17 54.04 90.95 17.46 109
24.82 116.86 31.51 81.59 10.42 117
30.21 73.60 51.23 39.52 31.06 227
31.24 168.31 38.37 62.16 14.29 129
23.2
您可能关注的文档
- 数量统实计重要章节参考习题.doc
- 数每字化校园软件不功能.doc
- 数如据库讲义ch13.doc
- 数数据库课程设计报告(学生公寓返管理系统).doc
- 数显压力试验机和纸流箱抗压试验机价格.docx
- 数学:第一章《统计案例》素材(新人教如A版选修1-2).doc
- 数学2E013年考研大纲.doc
- 数学F与经济学的关系.doc
- 数学F运算来自QZZN最全的总结.doc
- 数学t结题报告.doc
- 量子通信技术在高中教育数据传输安全中的应用与挑战教学研究课题报告.docx
- 边缘计算在移动教育生态系统中的虚拟实验平台教学效果分析教学研究课题报告.docx
- 基于人工智能的特殊教育学生个性化智能辅助教学系统设计与实现教学研究课题报告.docx
- 基于人工智能的中小学社会学教育创新实践研究教学研究课题报告.docx
- 工业自动化仪表智能化发展对传统制造业的颠覆与创新教学研究课题报告.docx
- 2025年河南省司法辅助人员招聘考试(新闻)历年参考题库含答案详解.docx
- 教育评价改革中增值评价与教育评价技术的融合研究教学研究课题报告.docx
- 2025年教师招聘考试(数学)历年参考题库含答案详解.docx
- 国家智慧教育云平台背景下中小学教师专业成长路径探究教学研究课题报告.docx
- 2025年全国涉外会计岗位专业考试(涉外会计基础理论)历年参考题库含答案详解.docx
最近下载
- 新解读《DA_T 20.1-1999民国档案目录中心数据采集标准 民国档案著录细则》最新解读.docx VIP
- 东风日产骐达2008款1.6自动挡时尚型维修手册.docx VIP
- 2024年浙江事业单位招聘-杭州市萧山区第二次机关事业单位编外招聘84人笔试模拟试题及答案解析.docx VIP
- Sigma适马dp0_Quattro使用说明书.pdf
- 社会调查研究方法PPT全套课件.pptx
- 一年级上册语文基础知识专项练习(1-4).doc VIP
- 古籍《射经》王琚.pdf VIP
- 1-6年级小学生128首必背+80首扩展古诗-排版打印版 .pdf VIP
- 电工实习日记(精选25篇).pdf VIP
- KEYENCE基恩士MK-20 化学品安全技术说明书(SDS).pdf
原创力文档


文档评论(0)