- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多元统计论文,例分析
多 元 统 计 学
课程论文
成绩
学生姓名 刘佳
班 级 统计12( 2 )班
学 号
基于主成分分析的城镇居民的人均全年消费性支出
——以中国31个省市为例
摘 要
主成分分析是将多指标化为少数几个综合指标的一种统计分析方法。通过降维技术把多个变量化为少数几个主成分的方法,这些主成分保留原始数据的绝大部分信息。通过主成分分析,可以从事务错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到一些对事务特征及其发展规律的深层次的启发,把研究工作引向深入。R软件是一款功能强大的、免费的、开源的、应用前景广阔的软件。
【关键词】:主成分,多元统计,R软件
0 引 言
每个地区的各项家庭人均年消费性支出都不一样,而收集的数据有很多,全部罗列会很繁琐。我国地区经济发展很不平衡,居民的人均消费性支出有很大差异。因此我们要把数据进行主成分分析,选出最主要的数据来代表各个省市的家庭人均消费性出。这个行为就显得尤为必要。
1.主成分分析方法原理和步骤
主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。X1,X2,…,XP(比如p个指标),重新组合成一组较少个数的互不相关的综合指标Fm来代替原来指标。那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。
F1表示原变量的第一个线性组合所形成的主成分指标,即 ,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差Var(F1)越大,表示F1包含的信息越多。常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,…,XP的所有线性组合中方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差Cov(F1, F2)=0,所以F2是与F1不相关的X1,X2,…,XP的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、F2、……、Fm为原变量指标X1、X2……XP第一、第二、……、第m个主成分。
(1) Fi与Fj互不相关,即Cov(Fi,Fj) = 0,并有Var(Fi)=ai’Σai,其中Σ为X的协方差阵
(2)F1是X1,X2,…,Xp的一切线性组合(系数满足上述要求)中方差最大的,……,即Fm是与F1,F2,……,Fm-1都不相关的X1,X2,…,XP的所有线性组合中方差最大者。
F1,F2,…,Fm(m≤p)为构造的新变量指标,即原变量指标的第一、第二、……、第m个主成分。
由以上分析可见,主成分分析法的主要任务有两点:
(1)确定各主成分Fi(i=1,2,…,m)关于原变量Xj(j=1,2 ,…, p)的表达式,即系数 ( i=1,2,…,m; j=1,2 ,…,p)。从数学上可以证明,原变量协方差矩阵的特征根是主成分的方差,所以前m个较大特征根就代表前m个较大的主成分方差值;原变量协方差矩阵前m个较大的特征值 (这样选取才能保证主成分的方差依次最大)所对应的特征向量就是相应主成分Fi表达式的系数 ,为了加以限制,系数 启用的是 对应的单位化的特征向量,即有 = 1。
(2)计算主成分载荷,主成分载荷是反映主成分Fi与原变量Xj之间的相互关联程度:
1.2主成分分析法的计算步骤
(1)计算协方差矩阵
计算样品数据的协方差矩阵:Σ=(sij)p′p,其中
i,j=1,2,…,p
(2)求出Σ的特征值及相应的正交化单位特征向量
Σ的前m个较大的特征值l13l23…lm0,就是前m个主成分对应的方差,对应的单位特征向量就是主成分Fi的关于原变量的系数,则原变量的第i个主成分Fi为:
Fi =X
主成分的方差(信息)贡献率用来反映信息量的大小,为:
(3)选择主成分
最终要选择几个主成分,即F1,F2,……,Fm中m的确定是通过方差(信息)累计贡献率G(m)来确定
当累积贡献率大于85%时,就认为能足够反映原来变量的信息了,对应的m就是抽取的前m个主成分。
(4)计算主成分载荷
主
您可能关注的文档
- 复旦大学经济学复习5大关键问题.doc
- 复旦大学经济学复习5大诀窍.doc
- 复杂难选铁矿石分离还原冶选联合工艺技术的应用.doc
- 夏国源第一次全三角形教案.doc
- 夏枯草的研究概及展望.doc
- 夏辉辉:关于历导言课的反思与重构.doc
- 外国文学欣赏知汇总.doc
- 外国美术史期末习题.doc
- 外国行政法论文外国行政法特点的比较研究.doc
- 外国行政法课程学大纲.doc
- 新高考生物二轮复习讲练测第6讲 遗传的分子基础(检测) (原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第3讲 酶和ATP(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第9讲 神经调节与体液调节(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第8讲 生物的变异、育种与进化(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第5讲 细胞的分裂、分化、衰老和死亡(检测)(原卷版).docx
- 新高考生物二轮复习讲练测第12讲 生物与环境(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第11讲 植物生命活动的调节(检测)(原卷版).docx
文档评论(0)