主成分分析及R语言案例.pdfVIP

  • 327
  • 0
  • 约1.33万字
  • 约 11页
  • 2017-06-09 发布于河南
  • 举报
主成分分析及R语言案例

上海大学2013~2014 学年 春 季学期研究生课程考试 课程名称: 统计中的矩阵应用 课程编号: 01SAQ9005 论文题目: 主成分分析及R 语言案例 研究生姓名: 李腾龙 学号: 研究生班级: 理学院统计系 论文评语: 成 绩: 任课教师: 评阅日期: 主成分分析及R 语言案例 摘要:本文目的在于,在基于主成分分析方法的基础上,给出实际操作 中主成分分析方法的具体步骤,并同时叙述了作者对主成分分析的一些 想法和心得。更重要的是,通过本次论文的学习,更加深入地学习了统 计中的矩阵应用的相关知识点,并通过一个案例分析,使自己能够初步 了解并掌握R 语言统计分析软件的使用方法。 关键词:主成分分析、R 语言、特征值、特征向量 一、引言 在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂 性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有 一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量 反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立 尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课 题的信息方面尽可能保持原有的信息。 主成分分析(Principal Component Analysis ,PCA ),就是将多个变量通过 线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。 主成分分析所关心的问题,是通过一组变量的几个线性组合来解释这组变量 的方差-协方差结构,它的一般目的是:(1)数据的压缩;(2 )数据的解释。 虽然要求p 个成分可以再现全系统的变异性,但大部分变异性常常只用少数 k 个主成分就可以说明。出现这种情况时,这k 个主成分中所包含的信息和那p 个原变量所包含的(几乎)一样多。于是这k 个主成分就可以用来取代那初试的 p 个变量,并且由对p 个变量的n 次测量值所组成的原始数据,就压缩为对k 个 主成分的n 次测量值所组成的数据集。 二、主成分分析基本原理 2.1 主成分的定义 概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析 方法。从数学角度来看,这是一种降维处理技术。 思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析 问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较 多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这 样问题就简单化了。 原理:假定有n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据 矩阵, x11 x12  x1 p    x x  x X   21 22 2 p         xn1 xn 2  xnp    记原变量指标为x , x ,, x ,设它们降维处理后的综合指标,即新变量为 1 2 p Y ,Y ,,Y (m  p) ,则 1 2 m  Y  a x a x a x

文档评论(0)

1亿VIP精品文档

相关文档