- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
§基本思想 多元统计分析处理的是多变量(多指标)问题。由于变量较多,增加了分析问题的复杂性。但在实际问题中,变量之间可能存在一定的相关性。因此,多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性,用较少的变量来代替原来较多的变量,而这种代替可以反映原来多个变量的大部分信息,这实际上是一种“降维”的思想。 主成分分析也称主分量分析,由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快地提取信息。当第一个线性组合不能提取更多的信息时,再考虑用第二个线性组合继续这个快速提取的过程,……,直到所提取的信息与原指标相差不多时为止。这就是主成分分析的思想。一般说来,在主成分分析适用的场合,用较少的主成分就可以得到较多的信息量。以各个主成分为分量,就得到一个更低维的随机向量;因此,通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。 我们知道,当一个变量只取一个数据时,这个变量(数据)提供的信息量是非常有限的,当这个变量取一系列不同数据时,我们可以从中读出最大值、最小值、平均数等信息。变量的变异性越大,说明它对各种场景的“遍历性”越强,提供的信息就更加充分,信息量就越大。主成分分析中的信息,就是指标的变异性,用标准差或方差表示它。 主成分分析就是设法将原来指标重新组合成一组新的互不相关的综合指标。同时根据实际需要从中可取几个较少的综合指标来代替原来指标,这些综合指标要尽可能多地反映原始指标的信息,从而达到降维的目的。主成分分析实际上是一种降维的处理方法,其中的综合指标也称为主成分。 二、主成分的推导 设 设协差阵Σx的特征根为?1? ?2 ? … ??p0,相应的单位特征向量为 当a =u1时有 说明X1,X2…XP的主成分就是以其协差阵的特征向量为系数的线性组合,它们互不相关,其方差为协差阵的特征根。 因子载荷阵 在医学研究中,为了客观、全面的分析问题,常要记录多个观测指标,并考虑众多的影响因素, 这样的数据虽然可以提供丰富的信息,但同时也使得数据的分析工作更趋复杂化。 事实上,在实际工作中,所涉及的众多指标经常是有互相联系和影响的,从这一点出发,希望通过对原始指标相互关系的研究,找出少数几个综合指标,这些综合指标是原始指标的线性组合,它既保留了原始指标的主要信息,且互不相关。 例 设 的协方差矩阵为 解得特征根为 , , ,, 第一个主成分的贡献率为5.83/(5.83+2.00+0.17)=72.875%,尽管第一个主成分的贡献率并不小,但在本题中第一主成分不含第三个原始变量的信息,所以应该取两个主成分。 Xi与F1的 相关系数 平方 Xi与F2的相关系数 平方 信息提取率 xi 1 0.925 0.855 0 0 0.855 2 -0.998 0.996 0 0 0.996 3 0 0 1 1 1 定义:如果一个主成分仅仅对某一个原始变量有作用,则称为特殊成分。如果一个主成分所有的原始变量都起作用称为公共成分。 (该题无公共因子) §5 主成分分析的步骤 在实际问题中,X的协方差通常是未知的 第一步:由X的协方差阵Σx,求出其特征根,即解方程 ,可得特征根 。 一、基于协方差矩阵 第二步:求出分别所对应的特征向量U1,U2,…,Up, 第三步:计算累积贡献率,给出恰当的主成分个数。 第四步:写出各主成分,计算所选出的k个主成分的得分。 对各主成分进行解释。 二、基于相关系数矩阵 如果变量有不同的量纲,则必须基于相关系数矩阵进行主成分分析。不同的是计算得分时应采用标准化后的数据。 X是标准化后的原始数据矩阵。 例一 应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应向购货单位或接受劳务的单位收取的款项,包括应收销货款、其它应收款和应收票据等。出于扩大销售的竞争需要,企业不得不以赊销或其它优惠的方式招揽顾客,由于销售和收款的时间差,于是产生了应收款项。应收款赊销的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信用程度。由此,评价顾客的信用等级,了解顾客的综合信用程度,做到“知己知彼,百战不殆”,对加强企业的应收账款管理大有帮助。某企业为了了解其客户的信用程度,采用西方银行信用评估常用的5C方法,5C的目的是说明顾客违约的可能性。 1、品格(用X1表示),指顾客的信誉,履行偿还义务的可能性。企业可以通过过去的付款记录得到此项。
文档评论(0)