- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(应用统计学经济与相关管理中的数据分析)第十一章主成分分析.ppt
* 第十一章 主成分分析 【本章导读及学习目标】 主成分分析是多元数据分析中的一个重要方法,它的主要工作目的是在力保数据信息损失最少的原则下,对高维变量空间进行降维处理。事实上,在一个低维空间进行系统分析总要比在高维空间容易得多。在本章中,将讨论主成分分析方法的基本思路和工作原理,介绍主成分分析方法的计算过程以及辅助分析技术,并简要介绍因子分析方法。此外,还将通过一个综合案例来说明如何运用这些方法来解决实际工作中的数据分析问题。通过本章学习,应了解主成分分析和因子分析的工作原理、计算过程、对数据分析结果质量的评价方法、对主成分(或主因子)的解释方法,此外还将讨论主成分分析或因子分析在应用中需要注意的一些基本问题。 * 第一节 工作目标和基本思路 一、主成分分析的工作目的 主成分分析有许多成功的应用案例。英国统计学家斯科特(Scott)在1961年曾经对157个英国城镇发展水平进行调查,原始测量的变量是57个。而经过主成分分析,只需5个新的潜在变量,就可以95%的精度表示原始数据的变异情况。可以想象,在5维空间对系统进行任何分析,都比在57维更加快捷、有效。另一个著名的工作是美国经济学家斯通(Stone)在1947年关于国民经济的研究。他曾利用美国1929—1939年各年数据,得到17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息和外贸平衡等。在进行主成分分析后,他竟以97.4%的精度,用3个潜在变量取代了原来的17个变量。根据经济学知识,斯通给这3个潜在变量分别命名为总收入、总收入的变化率,以及经济发展和衰退的趋势(是时间的线性项)。更有意思的是,这3个新变量都是可以直接测量的,因此完全可以通过测量这3个新变量来取代原来对17个变量的测量,于是,问题得到了极大的简化。 * 一、主成分分析的工作目的 在主成分分析应用中,有两种特殊的情况尤其引起人们的关注:如果能将一个 维变量系统有效地降至二维,就可以在平面图上描绘出每一个样本点,从而直接观察样本点之间的相似关系以及样本群点的分布特点和结构。所以,主成分分析使高维空间中数据点的可视性成为可能。在数据信息的分析过程中,对直观图像的观察是一种重要的分析手段,它可以更好地协助系统分析人员的思维与判断,及时发现大规模数据群中的普遍规律与特殊现象,大大提高数据信息的分析效率。 另一方面,如果可以在较高的精度下,将一个高维变量系统有效地降至一维,就有可能将高维指标系统构造成一个综合指数,用于多目标评估决策。例如英国统计学家肯道尔(Kendall) 曾评估英国各地区农业生产水平。他采用英国48个郡的10种农作物产量作为评估变量。在进行主成分分析后,第1主成分的累计贡献率达到 47.6%,肯道尔将其称为“生产能力水平”,并把英国各地区按此指数排序,把它们的生产情况分为优、良、中、可、劣五种。而事实表明,这一评估结果与当时有关农业生产能力的地理分布的一般知识是十分一致的。 * 二、主成分分析的基本原理 * 一、算法推导 * 一、算法推导 * 一、算法推导 * 二、主成分分析的计算步骤 * 三、主成分的基本性质 * 三、主成分的基本性质 * 第三节 辅助分析技术 一、精度分析 * 二、解释主成分 * 二、解释主成分 * 二、解释主成分 * 三、特异点的发现 * 三、特异点的发现 通常情况下,如果去掉这一类特异点,往往会使数据分析的有效性有很大的改善。特别是在做主平面图示时,由于极个别特异点的存在,它们会占据平面图的大部分版面,而使其他所有样本点聚集在一团,难以分辨。去掉这几个特异点,就可能立即得到一个更加清晰的平面图示。所以,人们常常先去掉这类点再做主成分分析。然后,可以将这些作为补充元素,放回到主超平面上去,以观察数据的特性。 特异点的存在是十分常见的,它们的产生有时是由于一些特殊原因造成的。例如,在分析历史数据时,技术的突变,飞跃式的进展,会使评价企业生产水平的数据统计点有特殊表现。在对产品进行市场分析时,可能会发现一个产品,因为它的某项特别能迎合顾客心理的品质,使其销售状况远远优于其他同类产品。对特异点的分析,有助于找到这些特别的品质。 * 三、特异点的发现 * 四、样本点在主超平面上的表现质量 * 五、数据重构 * 五、数据重构 * 第四节 因子分析方法 一、因子分析模型 因子分析方法(factor analysis)与主成分分析有着十分密切的联系。在应用中,它可以对由主成分分析得到的低维子空间进行适当的坐标旋转变换,从而使潜变量(成分或因子)的实际含义更加清晰。 因子分析的思想方法最早出现在心理学研究领域。1904年英国心理学家斯皮尔曼(Spearman) 在美国心理学杂志上发表了题为“客观决定和测量一般
您可能关注的文档
- (幼儿园相关管理课件)第五章幼儿园财务与设备设施相关管理.ppt
- (幼儿园相关管理课件)第八章幼儿园的经营与发展.ppt
- (幼儿园相关管理课件)第六章幼儿园保教工作及课程相关管理.ppt
- (幼儿园相关管理课件)第十一章园长与幼儿园领导工作.ppt
- (幼儿园相关管理课件)第十三章幼儿园相关管理新进展.ppt
- (幼儿园相关管理课件)第十二章幼儿教育相关管理体制及其变革.ppt
- (幼儿园相关管理课件)第十章幼儿园组织文化建设.ppt
- (幼儿园相关管理课件)第四章幼儿园人事相关管理.ppt
- (幼儿园社会教育活动及的设计)第1单元模块1 自我意识.ppt
- (幼儿园社会教育活动及的设计)第1单元模块2 自我体验.ppt
文档评论(0)