主成分分析是处理降维的1种方法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主成分分析是处理降维的1种方法

主成分分析是处理降维的一种方法。 将多个指标化为少数相互无关的综合指标的统计方法叫做主成分分析。 主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新信息,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。 因子分析是主成分分析的推广和发展,它是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。 因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量相关性较低。 典型相关分析的基本思想:结合主成分分析的思想,自然是考虑X的综合指标(X的线性函数)与Y的综合指标之间的相关性程度来刻画X与Y的相关性,即把两组变量的相关,变为两个新变量(线性函数)之间的相关来讨论,同时又尽量保留原来变量的信息,或者说,找X的线性函数和找Y的线性函数,使这两个线性函数具有最大的相关性。(称这种相关为典型相关,称形成的两个线性函数即两个新的变量为典型变量。)继而,还可以分别找X与Y的第二对线性函数。是其与第一对典型变量不相关,而这两个线性函数之间又具有最大的相关性。如此继续进行下去,直到两组变量X与Y之间的相关性被提取完毕为止。 判别分析就是解决分类问题,模式识别的分类问题就是根据待识别对象的特征向量值及其它约束条件将其分到某个类别中去。统计判别分析理论是模式分类问题的基本理论之一,它对模式分析和分类器的设计有着实际的指导意义。 距离判别法的基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。 距离判别法对各类(或总体)的分布,并无特定的要求。 系统聚类法的基本思想:先将每个研究对象(样品或指标)各自看成一类,按某种顺序分别称作第1,第2,…第h类(如果对象是样品,则h=n;如果对象是指标,则h=p);然后根据对象间的相似度量,将h类中最相似的两类合并,组成一个新类,这样得到h-1类,再在这h-1类中找出最相似的两类,得到h-2类,如此下去,直至将所有的对象并成一个大类为止。 系统聚类法优点:既可以对观测量(样品)也可对变量进行聚类,既可以是连续变量也可以是分类变量,提供的距离计算方法和结果显示方法也很丰富。 系统聚类法基本步骤 初始化过程:(1)样本集:(2)选择样本间距离的定义及类间距离的定义; (3)构造n个类,每类只含有一个样本; (4)计算n个样本两两之间的距离,得到距离矩阵,记作; 归并类过程:(5)合并距离最近的两类为一个新类,称作第n+1类,并取消刚合并的那两类,这样得到n-1类;(6)计算新类与剩余各类的距离,其他各类间距离不变,得到降一阶的新距离矩阵。若类的个数等于1,则转到步骤7;否则,回到步骤5. 决策过程:(7)画出聚类图;(8)决定类的个数和类。 正交试验的的极差分析法的一般步骤:1、定指标,确定因素,选水平;2、选用适当的正交表,表头设计,确定实验方案;3、严格按条件做实验,并记录实验结果。4、计算各列的统一水平的数据和与极差;5、按极差大小排出因素的主次;6、选取较优生产条件;7、进行验证性试验,做进一步分析。 主成分分析是处理降维的一种方法。 将多个指标化为少数相互无关的综合指标的统计方法叫做主成分分析。 主成分分析的基本思想是通过构造原变量的适当的线性组合,以产生一系列互不相关的新信息,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能。当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量。 因子分析是主成分分析的推广和发展,它是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。 因子分析的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系,但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量相关性较低。 典型相关分析的基本思想:结合主成分分析的思想,

文档评论(0)

junjun37473 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档