第五章数据分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章 数据分析 第一节 描述统计——多变量描述统计 描述统计 知识回顾 数据分析: 从实际观测数据中发现变量的特征、变化规则以及变量之间的关联的过程。 多变量分析发展 为何研究 充分地解释某种现象 探索现象的成因 描述统计 多变量关联表 多变量关联表分析(细化分析): 引入第三个变量,按此变量的属性来分别考察自变量 和因变量之间的关系。 细化的过程 四种结果 多变量关联分析法 利VS弊 偏相关分析和多元回归 偏相关分析: 表示在消除第三个变量的影响后,自变量和因变量的关联程度。 多元回归分析: 研究一个被解释变量(因变量),多个解释变量(自变量)的线性模型,即 y =β1 + β2X2 + …… + βkXk + μ 偏相关分析 例1: 欲分析个人受教育水平和工作绩效之间的关联,两者的关联又受年龄影响。(如下图) 偏相关系数 偏相关分析 设例1中,年龄和教育水平的相关系数为0.38,年龄和工作绩效的相关系数为0.2,教育水平和工作绩效的相关系数为0.5,则教育水平和工作绩效的偏相关系数为: r = (0.5-0.38*0.2)/ [(1-0.382)1/2 (1-0.382)1/2] = 0.47 偏相关分析 然而选择游客增长率作为控制变量(剔除变量“游客增长率”的影响),偏相关结果显示:偏相关系数为0.0825,显著性概率p=0.6950.05。 说明剔除变量游客增长率的影响后,风景区商业投资额与风景区经济增长没有显著性关系,更不能说,风景区的商业投资额导致了风景区的经济增长。 偏相关分析 多元回归分析 多元回归分析的内容和功能与一元回归分析完全一样,只是回归方程中包含两个或多个自变量,回归系数表示方程中其他自变量受控的情况下一个自变量与因变量的关联。 注:受控,并非将样本数据按受控的自变量属性值归类,而是“调节”每个样本的变量属性值。 多元回归分析 多变量回归方程: y =β1 + β2X2 + …… + βkXk + μ 表示y的截距为零的情况,βi 表示自变量Xi 变化一单位时在其他自变量保持不变的情况下因变量y的变化量,μ表示随机误差。 注:多元回归方程并不能反映出各个自变量的相对重要性,因为βi与自变量的度量尺度有关, βi βn并不代表Xi 和y的关联较Xn和y的关联更强,可能是由于Xi采用较小的尺度单位 多元回归分析 为了评判各自变量的相对重要性,回归方程的系数βi 可以标准化,这样就可以反映出在解释因变量y的变化中多个自变量的相对重要性。 多元回归方程可以检验自变量和因变量关联的统计显著性。P0.05,则无显著性关系。 多元回归分析 例:以课题总数为被解释变量,解释变量为投入人年数(X2)、受投入高级职称的人年数(X3)、投入科研事业费(X4)、专著数(X6)、论文数(X7)、获奖数(X8)。 解释变量采用强制进入策略,并做多重共线性检测。 假设课题总数与投入人年数(X2)、受投入高级职称的人年数(X3)、投入科研事业费(X4)、专著数(X6)、论文数(X7)、获奖数(X8)是线性相关,则设此时的回归方程为: 课题总数=β1+β2投入年数+β3投入科研事业费+β4专著数+β5论文数+β6获奖数+μ =β1+β2 X2+β3 X3+β4 X4+β5 X5+β6 X6+μ 多元回归分析 得到结果如下: 多元回归分析 分析:常数项β1的显著性概率为0.649>0.05,表示常数项与0没有显著性差异,因此β1=0 论文数β2的显著性概率为0.243>0.05,表示论文数与0没有显著性差异,因此β2=0 投入年数β3的显著性概率为0.03<0.05,表示投入年数与0有显著性差异,因此β3=1.361 投入高级职称的人数β4的显著性概率为0.463>0.05,表示投入高级职称的人数与0没有显著性差异,因此β4=0 投入科研事业费β5的显著性概率为0.122>0.05,表示常数项与0没有显著性差异,因此β5=0 专著数β6的显著性概率为0.953>0.05,表示专著数与0没有显著性差异,因此β6=0 获奖数β7的显著性概率为0.170>0.05,表示获奖数与0没有显著性差异,因此β7 =0 课题总数=0.698+1.361X2+0.208 问题: 自变量越多越好? “要领”在哪? 如何诊断关键“病因”,开出“药方”? 多元回归分析可以采用任意个数的自变量来解释因变量的变化,理论上说,自变量越多,对管理现象的解释能力越强。然而,随着自变量的数目增多,人们越来越难抓住问题的“要领”。 因此,多变量分析中,在保证一定的对因变量变化解释能力的条件下,自变量的个数越少越好。 通常

文档评论(0)

天马行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档