- 1
- 0
- 约9.15千字
- 约 18页
- 2026-02-08 发布于山东
- 举报
04回归分析与独立性检验的应用
一、必备知识:
1.变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.
相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2.散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
3.相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
4.线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
回归直线必过样本中心点,即样本中心坐标必满足回归直线方程.
5.残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
6.非线性回归
解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.
求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.
7.常见的非线性回归模型
(1)指数函数型(且,)
两边取自然对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(2)对数函数型
令,原方程变为,然后按线性回归模型求出,.
(3)幂函数型
两边取常用对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(4)二次函数型
令,原方程变为,然后按线性回归模型求出,.
(5)反比例函数型型
令,原方程变为,然后按线性回归模型求出,.
8.列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
总计
总计
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
9.独立性检验
(1)定义:利用独立性假设、随机变量来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
(2)公式:,其中为样本容量.
二、题组
题组一:回归方程与相关系数的求解
经典例题:
例1.已知两个线性相关变量的统计数据如表所示,则其回归方程是.
1
2
3
4
5
3
0
-2
-4
-5
例2.学习于才干信仰,犹如运动于健康体魄,持之已久、行之愈远愈受益.为实现中华民族伟大复兴,全国各行各业掀起了“学习强国”的高潮.某老师很喜欢“学习强国”中“挑战答题”模块,他记录了自己连续七天每天一次最多答对的题数如下表:
天数x
1
2
3
4
5
6
7
一次最多答对题数y
12
15
16
18
21
24
27
参考数据:,,,,,
相关系数
由表中数据可知该老师每天一次最多答对题数y与天数x之间是正相关,其相关系数(结果保留两位小数).
例3.已知变量,之间的一组相关数据如表所示,则变量,之间的相关系数.(计算结果精确到0.01)
6
8
10
12
6
5
3
2
变式训练:
1.已知回归直线的斜率的估计值为1.27,样本点的中心为,则回归直线方程为
原创力文档

文档评论(0)