第十一章多元统计分析.doc

下载文档

8
0
约 26页
2017-08-18 发布于河北
举报
版权申诉
保障服务

第十一章多元统计分析.doc

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

目录第十章多元统计分析 2 第一节主成分分析 3 一、基本思想 3 二、数学模型 4 三、模型的求解 4 四、主成分的性质 5 五、基本步骤与应用实例 5 第二节因子分析 9 一、基本思想 9 二、数学模型 10 三、因子载荷的统计含义 10 四、因子的求解 11 五、因子得分 11 六、基本步骤与应用实例 11 第三节聚类分析 13 一、基本思想 13 二、统计量 13 三、分类方法（系统聚类法） 14 四、基本步骤与应用实例 15 第四节判别分析 19 一、基本思想 19 二、基本方法 19 三、判别效果的评价 20 四、基本步骤与应用实例 20 英文摘要与关键词 23 习题 23 第十章多元统计分析通过本章的学习，我们应该知道：如何做主成分分析如何做因子分析如何做聚类分析如何做判别分析多元统计分析(multivariate statistical analysis)是研究多个随机变量之间的相互依赖关系以及内在统计规律性的一门统计学科，是现代统计学应用十分活跃的一个分支。常用多元统计方法主要有：多元数据图表示法、主成分分析、因子分析、聚类分析、判别分析、对应分析、多元回归分析、典型相关分析、路径分析等。从某种意义上讲，多元分析是一些方法的“混合体”，我们难于给出其确切的概念和难于对其所有方法进行归类，但是它可以同时展示和处理异度量的多个变量间的各种关系，且不损失原有的信息量，所以多元统计分析方法成为进行深层次经济分析的一种有效工具。每一种方法都有丰富的内容，也涉及较多的数理统计知识。本章主要的目的是简要介绍一些常用多元统计方法的基本思路和方法，对于数理推导部分，有兴趣的读者可参考相关专著。第一节主成分分析在许多实际问题中，我们经常用多个变量来刻画某一事物，但由于这些变量之间往往具有相关性，很多变量带有重复信息，这样就给分析问题带来了很多不便，同时也使分析结论不具有真实性和可靠性，因此，人们希望寻找到少量几个综合变量来代替原来较多的变量，使这几个综合变量能较全面地反映原来多项变量的信息，同时相互之间不相关。主成分分析正是满足上述要求的一种处理多变量问题的方法。一、基本思想主成分分析就是设法将原来的p个指标重新组合成一组相互无关的新指标的过程。通常数学上的处理就是将原来的p个指标做线性组合。为了能更清晰的解释主成分的基本思想，我们从用两个指标来衡量n个样本点的二维空间入手。在二维空间，n个样本点的变量信息若用离差平方和来表示，则变量的信息总量为总方差。对于每个变量的离差平方和，它们的取值可能出现各种情况：(1)如果离差平方和和之间相差悬殊，如取值之比为10：1，说明变量x1在方差总信息量中占较重要的地位，可剔除变量x2达到降维的目的；(2)如果和数值相差不大，说明两个指标在方差总信息量中的比重相当，统计分析时，两个指标都不可放弃，此时可对x1、x2作适当的变量替换，通过某方法寻找到两个新的变量y1、y2 (必须是原变量x1、x2的线性组合)，使新变量满足：，(其中)，上式说明新变量y继承了原变量x的全部信息，并且要求和数值比例相差较大，这时仅用y1来分析原问题就可以了，变量的个数从2变为了1。此时的y1方差最大，包含的信息最多。y1称之为第一主成分，y2称为第二主成分。推而广之，第一主成分y1的方差达到最大，其方差越大，表示其所包含的信息越多。如果第一主成分还不能反映原指标的全部信息，再考虑选取第二主成分y2，y2在剩余的线性组合中方差最大，并且与y1不相关，如若第一、第二主成分仍然不能反映原变量的全部信息，再考虑选取第三主成分y3，y3在剩余的线性组合中方差最大，并且与y1、y2不相关，依此可求出全部p个主成分，它们的方差是依次递减的。在实际工作中，在不损失较多信息的情况下，通常选取前几个主成分来进行分析，达到简化数据结构的目的。二、数学模型主成分分析可以针对总体，也可以针对样本，但在许多问题中所涉及的总体都是未知的，所以我们主要讨论样本的主成分。仍从二维空间入手，设有两个变量的信息如图10.1所示，大部分的样本点集中在椭圆范围内：图10.1 两个变量的信息分布如果我们取椭圆的长轴y1、短轴y2作为样本点新的坐标轴，容易看出y1坐标变化程度大，即y1的方差最大，而y2的变化程度相对较小，即y2的方差较小。于是可以说变量(x1，x2)的信息大部分集中在新变量y1上，而小部分集中在新变量y2上。上图中的新坐标y1，y2是x1，x2经过坐标旋转而得到的，其旋转公式为：系数满足的要求是：我们可以称y1为它们的第一主成分，y2为它们的第二主成分，坐标的正交变换为主成分变换。推广开来，设有n个样本点，每个样本点都有p项变量x1,x2,…,xp，其原始数据矩阵表示为：其