第五讲 主成分分析(pca).docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Clementine 中 PCA/Factor 的应用 主成分分析 PCA (Principal components analysis)主成 分分析 主成分分析思想和作用 主成分分析的数学模型 主成分分析的性质 主成分分析的分析步骤 1 主成分分析的基本思想 主成分分析的实质:降维,即用较少的变量来 代替原来较多的变量。 基本思想:由于多个变量之间存在着一定程度 的相关性,可以通过对原始变量相关矩阵或协 方差矩阵内部结构关系的研究,利用原始变量 的线性组合形成几个综合指标(主成份),在 保留原始变量主要信息的前提下起到降维和简 化问题的作用。 作用:处理多变量(多指标)问题,减少分析 问题的复杂性。 2 主成分分析的数学模型 设p个变量构成的p维随机向量为 m S 设随机向量均值为,变异系数矩阵为。 对X进行线性变换,可以形成新的综合变量Y。 Y = m X + m X +? + m X 1 11 1 12 2 1 p p Y = m X + m X + ? + m X 2 21 1 22 2 2 p p ? ? ? ? Y = m X + m X +? + m X p p1 1 p2 2 pp p 3 主成分分析的数学模型 用矩阵表示为,对上述方程组加以约束: Y = m¢X 1. ,即 (i=1,2,? p) 2. 与 不相关( ;i, j =1,2,? p) 3. 是 的一切满足原则1的线性组合中方 差最大者; 是与 不相关的所有线性组合中方差 次大者;以此类推。 基于以上三条原则决定的综合变量 分别称 为原始变量的第一、第二、? ? 、第p个主成分。 4 主成分分析的性质 性质1 主成分的协方差矩阵是由特征根组成的 对角阵 性质2 主成分的总方差等于原始变量的总方差 性质3 主成分与原始变量的相关系数与特征根 有关,称之为因子载荷量 性质4 忽略一些带有较小方差的主成分不会给 总方差带来太大的影响。并称 为第k个主成分的贡献率 j k l = p k ? k = 1 l k 5 主成分分析的分析步骤 (1)将原始数据标准化; (2)建立变量的相关系数阵; (3)求R的特征根及相应的特征向量; (4)由累积方差贡献率确定主成分的个数(m), 并求出主成分表达式; (5)对主成分进行分析。 6 因子 分析 因子分析思想 因子分析应用 因子分析数学模型 公因子重要性分析 因子分析与主成分分析异同点 7 因子 分析的基本思想 因子分析实质:是一种降维、简化数据的技术 基本思想:通过研究众多变量之间的内部依赖关 系,探求观测数据中的基本结构,并用少数几个 “抽象”的变量来表示其基本的数据结构。这几 个抽象变量即为因子,能反映原来众多变量的主 要信息。根据相关性大小把原始变量分组,使得 同组内的变量之间相关性较高,不同组变量间相 关性较低。 常用的因子分析类型是R型因子分析(对变量 作 分析)和Q型因子分析(对样品作分析)。 8 因子 分析应用 目前因子分析在心理学、社会学、经济学等学科都 取得了成功的应用,是多元统计分析中典型方法之 一。 应用举例:在商业企业的形象评价中,消费者可以 通过一系列指标:如商品种类、商品价格等来评价 百货商场的各个方面。但消费者真正关心的只是三 个方面:商店的环境、服务和商品价格。除了价格 外,另外两个都是客观存在的、抽象的影响因素, 只能通过具体指标进行间接反映。通过这些指标分 析得出消费者满意情况,为企业提供指导。 9 因子 分析的数学模型 设有n个样品,每个样品观测p个指标。 (1) 是可观测随机向量,且均值向量 E(X)=0,变异数矩阵cov(X)= ,且变异数矩阵与相 关矩阵R相等; (2) 是不可观测变量,其均值向 量E(F)=0,变异数矩阵cov(F)=I,且向量F的各分量 是相互独立的; (3) 与F相互独立,且 ,ε的变异数矩阵是 对角方阵,且ε的各分量之间也是相互独立的。 10 因子 分析的数学模型 模型 X = a F + a F + ? + a F + e 1 11 1 12 2 1m m 1 X = AF + e = X = a F + a F + ? + a F + e 2 21 1 22 2 2m m 2 ? ? ? ? X = a F + a F + ? + a F + e p p1 1 p2 2 pm m p 其中, 称为因子载荷矩阵,F称 为公共因子。 11 公因子 重要性分析 因子旋转 通过因子旋转的方法,使每个变量仅在一个公 共因子上有较大的载荷,而在其余的公共因子上的 载荷比较小。 最常用的方法是最大方差旋转法,就是选择正 交矩阵G,使得正交变换后的因子载荷矩阵所有m 个列元素平方的相对方差之和 V = V + +L + 1 V V 2 m

文档评论(0)

158****6415 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档