网站大量收购独家精品文档,联系QQ:2885784924

主成分分析-ltl.ppt

  1. 1、本文档共49页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主成分分析-ltl

这时候协方差矩阵的差异较大,总方差主要归因于x2。。这时候两个特征值的差异较大。 * 对于实际问题,我们可能只能得到数据,并不能得到总体协方差矩阵,这时候可以用样本协方差矩阵代替总体协方差矩阵 * 因为发现因子分析和主成分有很多共通之处,所以这儿一起讲了,帮助大家了解 * 比如将我们的每门课程,数模是否获奖等作为变量,主成分是通过对变量的一种线性变换来刻画,而因子分析是通过一些潜在的因子,比如智力(虽然不愿意),来刻画我和大神们的差距,每一个变量都是因子的一种线性组合 * Xi代表我们不同的课程成绩,误差就是我们可能没有考虑到的一些次要因子 * 看上去好像与多远回归模型类似,但 * 写成矩阵的形式,正交因子模型我们会增加一些更严格的要求。 * 协方差矩阵可以通过载荷矩阵来刻画,变量与因子直接的关系,也可用载荷来刻画 * 我们用单因子,m=1 来刻画 * * Example 8.4: Pained Turtles * Example 8.4 * Example 8.4: Scree Plot * Example 8.4: Principal Component One dominant principal component Explains 96% of the total variance Interpretation * 我们选取的主成分是原变量的一种线性组合,关于他的实际解释意义不容易理解。 下面介绍一种新的方法-因子分析。 更容易理解 * * 因子分析 研究对象:总体协方差矩阵Σ 用几个潜在的,但不能被观察到的随机量去描述许多变量之间的协方差关系; 例: 斯皮尔曼收集了古典文学、法语、英语、数学以及音乐的一组测验成绩, 从它们的相关线表明可能存在潜在的因子“智力”、“勤奋”等。用这些潜在的因子去刻画变量 * 因子模型要求X是线性依赖于m个不能观测到称之为公共因子,和P个附加的特殊因子: * 注意与多元回归模型的区别,因子是不能被观测到的 * 正交因子模型 * * 正交因子模型的属性 Proof: 因子分析的目的在于用m个较少的不可测量的公共因子F,比如智商,去描述变量X之间的协方差矩阵; 不幸的是,对与因子数m较p小得多时,大多数协方差矩阵不能因子化为 看下面例子: * * * 既然不是所有的协方差矩阵Σ都能够因子化,我们总是需要想出一个通用的办法。 下面考察主成分解法 * 因子分析与主成分解 对于协方差矩阵,有谱分解: * 若取m=p,则有正交因子模型, 但是,取m=p并不是很有用,因为它用到和所有变量一样多的公共因子,没有达到缩减的目的。 当后p-m个特征值较小时,一种方法就是略去后p-m个特征值-特征向量的贡献,得到近似: * * 我们该如何选择因子数m? * * 因子对总方差的贡献比例 * 向秦老板汇报情况,第二天你就要被开除了。 * 这里的综合变量,就是我们所要研究的主成分 * 椭圆代表样本分布,那主成分就是通过坐标旋转,找到变异(方差)最大的放心,即椭圆的主轴; * 例2,如果直接用变量的协方差矩阵运作,那么由于x1远大于x2,x1只要发生轻微的变动,方差都要大于x2 * 为了与本课程联系,我们用矩阵的方式给出X标准化后的变量Z * 我们通过对Z的协方差矩阵做运作,可以得到Z的主成分。方法与之前一样 * 这时候它的总方差为p,因为对角线元素都是1 * 有一点需要注意的,对于同一组变量,从原始协方差矩阵和从标准化后的协方差矩阵所得到的主成分是不一样的。 * * * 学生代码 数学 政治 英语 数模获奖 …… 1 2 3 4 …… 学生成绩-样本 问题: 能不能用1-2个综合变量来刻画成绩? 这1-2个综合变量包含原来多少信息? 能不能利用综合变量来对学生排序呢? 主成分分析 针对的问题:纬度较高,变量之间相关线较高; 目的: 数据的压缩 数据的解释 通过一组变量的几个性线组合,来解释这组变量的方差-协方差结构,并选出其中的主成份; 研究的对象:变量的协方差矩阵 * 主成分的定义 * Result 8.1-主成份的构造 * Proof of Result 8.1 * Result 8.2-主成分的解释能力 主成分的方差在总方差中所占的比重 * Proof of Result 8.2 * 如果总方差的相当大的部分归因于第一个、前两个或前三个主成分,而p较大,那么这些成分就可以“取代”原来的p个变量,而且信息损失不多。 * Result 8.3-考察成分Y与变量X之间的关系 * Proof of Result 8.3 * Example 8.1 * Example 8.1 * * 主成分的几何解释 * 标准化变量 对于某些问题,变量的测量单位不是同量纲的,这时候需要先对变量进行标准化: 例

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档