MBA统计学07相关和回归分析.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计学─从数据到结论第七章 相关和回归分析§7.1 问题的提出对于现实世界,不仅要知其然,而且要知其所以然。顾客对商品和服务的反映对于企业是至关重要的,但是仅仅有满意顾客的比例是不够的;商家希望了解什么是影响顾客观点的因素,及这些因素如何起作用。类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,以及如何影响。§7.1 问题的提出发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型(model)。§7.1 问题的提出假如用Y表示感兴趣的变量,用X表示其他可能与Y有关的变量(X也可能是若干变量组成的向量)。则所需要的是建立一个函数关系Y=f(X)。这里Y称为因变量或响应变量(dependent variable, response variable),而X称为自变量,也称为解释变量或协变量(independent variable, explanatory variable, covariate)。建立这种关系的过程就叫做回归(regression)。§7.1 问题的提出一旦建立了回归模型,除了对变量的关系有了进一步的定量理解之外,还可以利用该模型(函数)通过自变量对因变量做预测(prediction)。这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计;它并不一定涉及时间先后。先看几个后面还要讨论的数值例子。§7.1 问题的提出例7.1 有50个从初中升到高中的学生。为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据在highschool.txt)。这两个成绩的散点图展示在图7.1中。有个上升趋势;即初三时成绩相对较高的学生,在高一时的成绩也较高。但对于具体个人来说,大约有一半的学生的高一平均成绩比初三时下降,而另一半没有变化或有进步§7.1 问题的提出目前的问题是怎么判断这两个变量是否相关、如何相关及如何度量相关?能否以初三成绩为自变量,高一成绩为因变量来建立一个回归模型以描述这样的关系,或用于预测。§7.1 问题的提出该数据中,除了初三和高一的成绩之外,还有一个定性变量(没有出现在上面的散点图中)。它是学生在高一时的家庭收入状况;它有三个水平:低、中、高,分别在数据中用1、2、3表示。为研究家庭收入情况对学生成绩变化的影响,下面点出两个盒形图,左边一个是不同收入群体的高一成绩的盒形图,右边一个是不同收入群体的高一和初三成绩之差的盒形图。可以看出收入高低对高一成绩稍有影响,但不如收入对成绩的变化(高一和初三成绩之差)的影响那么明显。§7.1 问题的提出到底学生在高一的家庭收入对成绩有影响吗?是什么样的影响?是否可以取初三成绩(这是定量变量)或(和)家庭收入(定性变量)为自变量,而取高一成绩为因变量,来建立一个描述这些变量之间关系的回归模型呢?§7.1 问题的提出例7.2 这是200个不同年龄和性别的人对某项服务产品的认可的数据(logi.txt)。这里年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而变量观点则为包含认可(用1表示)和不认可(用0表示)两个水平的定性变量(见下页数据)。想要知道的是年龄和性别对观点有没有影响,有什么样的影响,以及能否用统计模型表示出这个关系。年龄和观点的散点图(左)和性别与观点的条形图; §7.2 定量变量的相关如果两个定量变量没有关系,就谈不上建立模型或进行回归。但怎样才能发现两个变量有没有关系呢?最简单的直观办法就是画出它们的散点图。下面是四组数据的散点图;每一组数据表示了两个变量x和y的样本。正线性相关 不相关 负线性相关 相关但非线性相关 §7.2 定量变量的相关但如何在数量上描述相关呢?下面引进几种对相关程度的度量。Pearson相关系数(Pearson’s correlation coefficient)又叫相关系数或线性相关系数。它一般用字母r表示。它是由两个变量的样本取值得到,这是一个描述线性相关强度的量,取值于-1和1之间。当两个变量有很强的线性相关时,相关系数接近于1(正相关)或-1(负相关),而当两个变量不那么线性相关时,相关系数就接近0。§7.2 定量变量的相关Kendall t 相关系数(Kendall’s t)这里的度量原理是把所有的样本点配对(如果每一个点由x和y组成的坐标(x,y)代表,一对点就是诸如(x1,y1)和(x2,y2)的点对),然后看每一对中的x和y的观测值是否同时增加(或减少)。比如由点对(x1,y1)和(x2,y2),可以算出乘积(x2-x1)(y2-y1)是否大于0;如果大于0,则说明x和y同时增长或同时下降,称

文档评论(0)

职教魏老师 + 关注
官方认证
服务提供商

专注于研究生产单招、专升本试卷,可定制

版权声明书
用户编号:8005017062000015
认证主体莲池区远卓互联网技术工作室
IP属地河北
统一社会信用代码/组织机构代码
92130606MA0G1JGM00

1亿VIP精品文档

相关文档