- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主成分分析与因子分析及 SPSS 实现(一):原理与方法
一、主成分分析
(1 )问题提出
在问题研究中,为了不遗漏和准确起见,往往会面面俱到,取得大量的指标
来进行分析。比如为了研究某种疾病的影响因素,我们可能会收集患者的人口学
资料、病史、体征、化验检查等等数十项指标。如果将这些指标直接纳入多元统
计分析,不仅会使模型变得复杂不稳定,而且还有可能因为变量之间的多重共线
性引起较大的误差。有没有一种办法能对信息进行浓缩,减少变量的个数,同时
消除多重共线性?
这时,主成分分析隆重登场。
(2 )主成分分析的原理
主成分分析的本质是坐标的旋转变换,将原始的 n 个变量进行重新的线性
组合,生成 n 个新的变量,他们之间互不相关,称为 n 个“成分”。同时按照
方差最大化的原则,保证第一个成分的方差最大,然后依次递减。这 n 个成分
是按照方差从大到小排列的,其中前 m 个成分可能就包含了原始变量的大部分
方差(及变异信息)。那么这 m 个成分就成为原始变量的“主成分”,他们包
含了原始变量的大部分信息。
注意得到的主成分不是原始变量筛选后的剩余变量,而是原始变量经过重新
组合后的“综合变量”。
我们以最简单的二维数据来直观的解释主成分分析的原理。假设现在有两个
变量 X1、X2 ,在坐标上画出散点图如下:
可见,他们之间存在相关关系,如果我们将坐标轴整体逆时针旋转 45°,变
成新的坐标系 Y1、Y2 ,如下图:
根据坐标变化的原理,我们可以算出:
Y1 = sqrt(2)/2 * X1 + sqrt(2)/2 * X2
Y2 = sqrt(2)/2 * X1 - sqrt(2)/2 * X2
其中 sqrt(x)为x 的平方根。
通过对 X1、X2 的重新进行线性组合,得到了两个新的变量Y1、Y2。
此时,Y1、Y2 变得不再相关,而且 Y1 方向变异(方差)较大,Y2 方向的
变异(方差)较小,这时我们可以提取 Y1 作为 X1、X2 的主成分,参与后续的
统计分析,因为它携带了原始变量的大部分信息。
至此我们解决了两个问题:降维和消除共线性。
对于二维以上的数据,就不能用上面的几何图形直观的表示了,只能通过矩
阵变换求解,但是本质思想是一样的。
二、因子分析
(一)原理和方法:
因子分析是主成分分析的扩展。
在主成分分析过程中,新变量是原始变量的线性组合,即将多个原始变量经
过线性(坐标)变换得到新的变量。
因子分析中,是对原始变量间的内在相关结构进行分组,相关性强的分在一
组,组间相关性较弱,这样各组变量代表一个基本要素(公共因子)。通过原始
变量之间的复杂关系对原始变量进行分解,得到公共因子和特殊因子。将原始变
量表示成公共因子的线性组合。其中公共因子是所有原始变量中所共同具有的特
征,而特殊因子则是原始变量所特有的部分。因子分析强调对新变量(因子)的
实际意义的解释。
举个例子:
比如在市场调查中我们收集了食品的五项指标(x1-x5 ):味道、价格、风味、
是否快餐、能量,经过因子分析,我们发现了:
x1 = 0.02 * z1 + 0.99 * z2 + e1
x2 = 0.94 * z1 - 0.01 * z2 + e2
x3 = 0.13* z1 + 0.98 * z2 + e3
x4 = 0.84 * z1 + 0.42 * z2 + e4
x5 = 0.97 * z1 - 0.02 * z2 + e1
(以上的数字代表实际为变量间的相关系数,值越大,相关性越大)
第一个公因子 z1 主要与价格、是否快餐、能量有关,代表“价格与营养”
第二个公因子 z2 主要与味道、风味有关,代表“口味”
e1-5 是特殊因子,是公因子中无法解释的,在分析中一般略去。
同时,我们也可以将公因子z1、z2 表示成原始变量的线性组合,用于后续
分析。
(二)使用条件:
(1 )样本量足够大。通常要求样本量是变量数目的5 倍以上,且大于 100
例。
(2 )原始变量之间具有相关性。如果变量之间彼此独立,无法使用因子分
析。在 SPSS 中可用 KMO 检验和 Bartlett 球形检验来判断。
(3 )生成的公因子要有实际的意义,必要时可通过因子旋转(坐标变化)
您可能关注的文档
- R-102安素系统说明书 Chinese 2008.5.19.pdf
- 工地试验室仪器设备周期检定表及表头.doc
- 公司离职报告(精选多篇).doc
- 公司员工请休假管理办法.doc
- 2014马自达3 Axela昂克赛拉全介绍.ppt
- 力、运动和力综合测试.docx
- 供应链管理系统分析与设计.doc
- 2015北师大版数学三年级下册《找规律》·.ppt
- 立式连续热解气化焚烧技术(修改).docx
- 刘俊敏四好教师事迹材料.docx
- 江苏省常州市常州联盟校2024-2025学年高三上学期10月月考政治(解析版).docx
- 四川省成都市新津中学2024-2025学年高三上学期10月月考政治Word版.docx
- 四川省成都市新津中学2024-2025学年高三上学期10月月考英语(原卷版).docx
- 河南省郑州市中原区郑州创新科技中等专业学校2022-2023学年高一上学期月考政治Word版.docx
- 河北省沧州市2024-2025学年高三上学期10月质量检测政治Word版.docx
- 浙江省宁波市宁波中学2024-2025学年高一上学期11月月考英语 Word版无答案.docx
- 河南省许昌市许昌高级中学2024-2025学年高一上学期10月月考政治(原卷版).docx
- 湖北省部分高中联考协作体2024-2025学年高一上学期期中联考政治(原卷版).docx
- 浙江省A9协作体2024-2025学年高一上学期期中考试政治 Word版含解析.docx
- 浙江省嘉兴八校2024-2025学年高一上学期期中联考英语 Word版无答案.docx
文档评论(0)