信息分析week6-因子、聚类和t检验.pptx

  1. 1、本文档共83页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
蔚海燕 华东师范大学经济与管理学部信息管理系 hywei@infor.ecnu.edu.cn ;蔚海燕 华东师范大学经济与管理学部信息管理系 hywei@infor.ecnu.edu.cn ;在实际问题的分析过程中,人们往往希望尽可能多的搜集关于分析对象的数据信息,进而能够比较全面的、完整的把握和认识它。于是,对研究对象的描述就会有很多指标。但是效果如何呢?如果搜集的变量过多,虽然能够比较全面精确的描述事物,但在实际建模时这些变量会给统计分析带来计算量大和信息重叠的问题。而消减变量个数必然会导致信息丢失和??息不完整等问题的产生。 因子分析是解决上述问题的一种非常有效的方法。它以最少的信息丢失,将原始众多变量综合成较少的几个综合指标(因子),能够起到有效降维的目的。 ;因子分析是一种降维和评价(排序)的方法。 因子分析是将具有错综复杂关系的变量综合为较少的因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它是属于多元分析中处理降维的一种统计方法。 例如:构建我国的科学技术创新能力评价指标体系时;因子分析的目的是用几个不可观测的隐变量来解释原始变量间的协方差关系。 因子分析的基本思路:在影响某个目标的许多变量中,用某种方法构造出几个综合指标值,这几个综合指标完全能代表原有的变量对目标的影响,这几个指标值称为公共因子,然后由这几个公共因子与原目标的关系,构造出它们之间的线性函数关系,这样可由多个影响因素简化为几个影响因素(这些因素能够反映原变量提供的绝大部分信息,称为公共因子)。由此可算出每个样品得分再进行排序。 ;企业经济效益的分析 在企业的经济效益的评价中,有许多衡量经济效益的指标,如固定资产利税率、资金利税率、销售收入利税率、固定资产产值率、资金利润率,这五个指标反映了企业盈利能力;流动资金周转天数、全员劳动生产率反映了企业的资金与人力利用状况;而万元产值能耗反映了企业的能耗状况。 如何评价不同的企业经济效益?;因子分析要求样本的个数要足够多 一般要求样本的个数至少是变量的5倍以上。同时,样本总数据量理论要求应该在100以上 因子个数远远少于原有变量的个数; 因子能够反应原有变量的绝大部分信息; 用于因子分析的变量必须是相关的 如果原始变量都是独立的,意味着每个变量的作用都是不可替代的,则无法降维 检验方法:计算各变量之间的相关矩阵,观察各相关系数。若相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析 使用Kaiser-Meyer-Olkin检验(简称KMO检验)和 Bartlett球度检验(Bartlett’s test of sphericity)来判断(SPSS将两种检验统称为“KMO and Bartlett’s test of sphericity”) 因子具有命名解释性 ;因子分析法的原理;因子载荷 在因子变量不相关的条件下,aij就是第i个原始变量与第j个因子变量的相关系数。 aij绝对值越大,则Xi与Fi的关系越强。 变量的共同度(Communality) 也称公共方差。 Xi的变量共同度为因子载荷矩阵A中第i行元素的平方和。 ;因子变量Fj的方差贡献 因子变量Fj的方差贡献为因子载荷矩阵A中第j列各元素的平方和 ;因子分析的步骤;Bartlett球度检验 以变量的相关系数矩阵为基础,假设相关系数矩阵是单位阵(对角线元素不为0,非对角线元素均为0)。如果相关矩阵是单位阵,则各变量是独立的,无法进行因子分析 KMO检验 用于检验变量间的偏相关性,KMO统计量的取值在0~1之间 如果统计量取值越接近1,变量间的偏相关性越强,因子分析的效果就越好 KMO统计量在0.7以上时,因子分析效果较好;KMO统计量在0.5以下时,因子分析效果很差 ;数学上的处理是将原始的p个变量作线性组合,作为新的变量 设p个原始变量为 ,新的变量(即主成分)为 ,主成分和原始变量之间的关系表示为;选择几个主成分?选择标准是什么? 被选的主成分所代表的主轴的长度之和占了主轴总程度之和的大部分 在统计上,主成分所代表的原始变量的信息用其方差来表示。因此,所选择的第一个主成分是所有主成分中的方差最大者,即Var(yi)最大 如果第一个主成分不足以代表原来的个变量,在考虑选择第二个主成分,依次类推 这些主成分互不相关,且方差递减 ;因子数量的确定:究竟选择几个主成分才合适呢? 用公因子方差贡献率提取:一般要求所选主成分的方差总和占全部方差的80%以上就可以了。即累计方差贡献率达到80%以上的前几个因子可以作为最后的公因子 用特征根提取:一般要求因子对应的特征根要大于1,因为特征根小于1说明该共因子

文档评论(0)

echo + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档