主成分分析训练题.doc

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主成分分析训练题主成分分析训练题

主成分分析在数学建模 中的应用 朱 宁 2012年11月13日 第一讲 主成分分析在数学建模中的应用 1.学习目的 1.理解主成分分析的基本思想; 2.会用SAS软件编写相关程序,对相关数据进行主成分分析; 3.会用SAS软件编程结合主成分分析方法解决实际问题。 2.学习要求 1.理解主成分分析的基本原理,掌握主成分分析的基本步骤; 2.会用SAS软件编写相关程序,对相关数据进行分析处理和假设检验; 3.撰写不少于3000字的小论文; 4. 精读一篇优秀论文。 理论基础 1基本思想 在实际问题的研究中,往往会涉及众多的变量。但是,变量太多不但会增加计算的复杂性,而且也给合理地分析问题和解释问题带来困难。一般来说,虽然每个变量提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数较少的互不相关的新变量来反映原来变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。主成分分析就是在这种降维的思想下产生的处理高维数据的方法。 3.2 基本原理 (1).总体的主成分 定义1.设为P维随机向量,称为X的第i主成分(i=1,2,…P),如果: (1) (2) 当i1时, (3) 定理1.设是P维随机向量,且,的特征值为,为相应的单位正交特征向量,则X的第i主成分为 定义2.我们称为主成分的贡献率;又称为主成分的累计贡献率。记,,其中为的特征值,是相应的单位正交特征向量,记正交矩阵主成分,其中则总体主成分有如下的性质: 性质1. ,即P个主成分的方差为:,且它们是互不相关的。 性质2. ,通常称为原总体X的总方差(或称总惯量)。 性质3.主成分与原始变量的相关系数为 并把主成分与原始变量的相关系数称为因子负荷量。 性质4. 。 性质5. 若记,即令 这时标准化后的随机向量的协方差阵就是原随机向量X的相关阵R。从相关阵R出发求主成分,记主成分向量为,则有与总体主成分相应的性质: 性质1. ,其中为相关矩阵R的特征值。 性质2. . 性质3.主成分与标准化变量的相关系数为 , 其中是R对应于的单位正交特征向量。 性质4. 性质5. 。 2.样本的主成分 定义1.设变量的n次观测数据阵X已标准化,这时样本的协方差阵就是样本相关阵R,且 R的特征值为,其相应标准化特征向量为,样本主成分为 类似总体主成分,样本主成分也具有如下的性质: 性质1. (因为=0),而 上式说明当时,第i个主成分得分向量与第j个主成分得分向量是相互正交的。 性质2. 。称为样本主成分的贡献率;又称为样本主成分的累计贡献率。 性质3.样本主成分具有是残差平方和最小的优良性。 3.3 基本步骤 ⑴ 数据标准化其中,为第列的方差; ⑵ 计算协方差矩阵; ⑶ 计算协方差矩阵的特征值与特征向量;利用特征方程求出按大小排列特征值以及相应的特征向量; ⑷ 选择前几个特征向量,确定主成分; 3.4 基本命令 使用proc princomp过程进行主成分分析,其主要语句格式如下: Proc princomp 选项列表; Var 变量列表; Run; 其中:(1)Proc princomp语句用来规定输入、输出和一些运行选项,其选项及功能如下: ①data=数据集名1:指明所要分析的数据集,若省略则表示分析最新生成的数据集。 ②out=数据集名2:命名一个输出SAS数据集,其中包含原始数据以及各主成分得分(即各主成分的观测值)。 ③outstat=数据集名3:命名一个包含各变量的均值、标准差、相关矩阵或协方差矩阵、特征值和特征向量的SAS数据集。 ④covariance(cov):要求从协方差矩阵出发作主成分分析,若省略此选项,则从相关矩阵出发进行分析;除非各变量的度量单位是可比较的或已经过某种方式的标准化,否则不宜使用此选项,应从相关矩阵出发作主成分分析。 ⑤N=n:指定要计算的主成分的个数,其默认值为参与分析的变量的个数。 ⑥prefix=name:规定各主成分名称的前缀。省略此句则SAS系统自动赋予各主成分名称分别为prin1,prin2,……;若“name=A”,则各主成分名称分别为A1,A2,……,前缀的字符个数加上后面数字位数应不超过8个字符。 (2)VAR va

文档评论(0)

skewguj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档