- 1、本文档共89页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
§5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 此时所得主成分的表达式为: 其中,第一主成分保留了原始变量98.44%的信息,第一主成分与原始变量的因子负荷量分别为: 由此可知,第一主成分保留原始变量的信息与主成分与原始变量的关系式均与上两种情况有很大差别,那么,究竟哪种方法得到的结果更为可信呢,在实际研究中我们应该作何选择呢? §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标,我们不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化。比如,在对上市公司的财务状况进行分析时,常常会涉及到利润总额、市盈率、每股净利率等指标,其中利润总额取值常常从几十万到上百万,市盈率取值一般从五到六、七十之间,而每股净利率在1以下,不同指标取值范围相差很大,这时若是直接从协方差矩阵入手进行主成分分析,明显利润总额的作用将起到重要支配作用,而其它两个指标的作用很难在主成分中体现出来,此时应该考虑对数据进行标准化处理。 §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 但是,对原始数据进行标准化处理后倾向于各个指标的作用在主成分的构成中相等。由上面的例子我们看到,对于取值范围相差不大或是度量相同的指标进行标准化处理后,其主成分分析的结果仍与由协方差阵出发求得的结果有较大区别。其原因是由于对数据进行标准化的过程实际上也就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等均为1,而实际上方差也是对数据信息的重要概括形式,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在对主成分构成中的作用趋于相等。由此看来,对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。 §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 对于从什么出发求解主成分,现在还没有一个定论,但是我们应该看到,不考虑实际情况就对数据进行标准化处理或者直接从原始变量的相关矩阵出发求解主成分是有其不足之处的,这一点一定要引起注意。建议在实际工作中分别从不同角度出发求解主成分并研究其结果的差别,看看是否发生明显差异且这种差异产生的原因在何处,以确定用哪种结果更为可信。 §5.5.2 主成分分析不要求数据来自于正态总体 由上面的讨论可知,无论是从原始变量协方差矩阵出发求解主成分,还是从相关矩阵出发求解主成分,均没有涉及到总体分布的问题。也就是说,与很多多元统计方法不同,主成分分析不要求数据来自于正态总体。实际上,主成分分析就是对矩阵结构的分析,其中主要用到的技术是矩阵运算的技术及矩阵对角化和矩阵的谱分解技术。我们知道,对多元随机变量而言,其协方差矩阵或是其相关矩阵均是非负定的,这样,我们就可以按照求解主成分的步骤求出其特征值、标准正交特征向量,进而求出主成分,达到缩减数据维数的目的。同时,由主成分分析的几何意义可以看到,对来自多元正态总体的数据,我们得到了合理的几何解释,即主成分就是按数据离散程度最大的方向进行坐标轴旋转。 §5.5.2 主成分分析不要求数据来自于正态总体 主成分分析的这一特性大大扩展了其应用范围,对多维数据,只要是涉及降维的处理,我们都可以尝试用主成分分析,而不用花太多精力考虑其分布情况。 §5.5.3主成分分析与重叠信息 首先应当认识到主成分分析方法适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。一般认为当原始数据大部分变量的相关系数都小于0.3时,运用主成分分析不会取得很好的效果。 §5.5.3主成分分析与重叠信息 很多研究工作者在运用主成分分析方法时,都或多或少存在着对主成分分析去除原始变量重叠信息的期望,这样,在实际工作中初始就可以把与某一研究问题相关而可能得到的变量(指标)都纳入分析过程,再用少数几个主成分浓缩这些有用信息(假定已剔除了重叠信息),然后对主成分进行深入分析。在对待重叠信息方面,生成的新的综合变量(主成分)是有效剔除了原始变量中的重叠信息,还是仅仅按原来的模式将原始信息中的绝大部分用几个不相关的新变量表示出来,这一点还值得讨论。 §5.5.3主成分分析与重叠信息 为说明这个问题,我们有必要再回顾一下主成分的求解过程,我们仅就从协方差矩阵出发求主成分的过程予以说明,对相关阵有类似的情况。 对于 维指标的情况,我们得到其协方差矩阵如下: 现在考虑一种极端情况,即有两个指标完全相关,不妨设第一个指标在进行主成分分析时考虑了两次。则协方差矩阵变为: §5.5.3主成分分析与重叠信息 此时进行主成分分析的时候实际上是由 维矩阵 进行。 的行列式的
文档评论(0)