- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计案例
一、一周知识概述
统计案例是在概率统计内容的基础上,通过典型案例进一步介绍回归分析的基本思想、方法及其初步应用;通过典型案例介绍独立性检验的基本思想、方法及其初步应用,使同学们认识统计方法在决策中的应用.回归分析的部分内容在必修3中已出现过,在此基础上,本章通过典型案例“女大学生身高和体重的关系”进一步讨论一元线性回归模型,分析产生模型中随机误差项的原因.还介绍了一元线性回归模型的残差平方和分解的思想.在独立性检验中,如何结合例题介绍独立性检验的思想是重点内容.
二、重难点知识归纳
1.回归分析的基本思想及其初步应用
(1)回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)线性回归模型与一次函数的区别
线性回归模型方程为y=bx+a+e,e称为随机误差(或为残差变量),在实际问题中,线性回归模型适用的范围要比一次函数大得多.当残差变量恒等于0时,线性回归模型就变为一次函数模型.因此一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.
(3)总偏差平方和、残差平方和、回归平方和
偏差平方和分解公式:.
其中称为总偏差平方和,称为回归平方和,称为残差平方和.
偏差平方和分解公式也可以表示为:
总的偏差平方和=回归平方和+残差平方和.
相关指数公式:,又可表示为.
(4)残差分析
利用残差图进行残差分析的具体步骤如下:
计算每组观测数据的残差,即残差等于观测值减预测值.
画残差图.残差图的纵坐标为残差,横坐标通常可以是观测样本的编号、自变量x、或因变量的预测值等,残差图是一种散点图.
分析残差图.
找异常值.根据计算的残差值和残差图,观察是否存在残差特别大的点,即远离横坐标轴的点,如果存在远离坐标轴的点,就要研究它出现的原因,如是否在数据收集和录入中发生了错误,如果有错误,改正后重新建立回归模型.
2.独立性检验的基本思想及其初步应用
(1)分类变量与定量变量
分类变量:也称为属性变量或定性变量,它们的取值一定是离散的,而且不同的取值仅表示个体所属的类别.
定量变量:定量变量的取值一定是实数,它们的取值大小有特定的含义,不同取值之间的运算也有特定的含义.
(2)列联表
列联表一般为两个以上分类变量的汇总统计表,书中仅限于研究两个分类变量的列联表,并且每个分类变量只取两个值,这样的列联表称为2×2的列联表.
(3)应用假设检验方法解决实际问题
把假设检验的基本思想具体化到独立性检验中,就可以通过随机变量把两个分类变量独立性检验的基本思想表述为:当很大时,就认为所涉及的两个分类变量有关系;否则,就认为没有充分的证据显示这两个变量有关系.
三、典型例题剖析
例1.一位母亲记录了儿子3~9岁的身高,数据如下表.由此建立的身高与年龄的回归模型为.用这个模型预测这个孩子10岁时的身高,则正确的叙述是( )
年龄/岁 3 4 5 6 7 8 9 身高/cm 94.8 104.2 108.7 117.8 124.3 130.8 139.0 A.身高一定是145.83 cm
B.身高在145.83 cm以上
C.身高在145.83 cm左右
D.身高在145.83 cm以下
[解析]
例2.若有一组数据的总偏差平方和为120,相关指数为0.6,则回归平方和为( )
A.60 B.72
C.48 D.120
[解析]
例3.若一组观测值(x1,y1)(x2,y2)…(xn,yn)之间满足yi=bxi+a+ei (i=1,2,…,n),若ei恒为0,则R2为__________.
[解析]
例4.某厂为了研究生产率与废品率之间的关系,记录了7天的数据,试根据以下数据建立废品率与生产率的回归模型.
生产率/个·周-1 1000 2000 3000 3500 4000 4500 5000 废品率/% 5.2 6.5 6.8 8.1 10.2 10.3 13 [解析]
例5.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要休闲方式是运动.
(1)根据以上数据建立一个2×2的列联表;
(2)判断性别与休闲方式是否有关系.,则可得残差平方和=48,
又总的偏差平方和=回归平方和+残差平方和,
故可得回归平方和=120-48=72.
故选B.
例三 解析:ei恒为0,则说明残差变量为0,
那么有残差平方和为0,
则有=1.
例四解析:用y表示废品率,用x表示生产率
那么废品率和生产率的关系可以用
文档评论(0)