第十一章 简单回归分析1.pptVIP

  • 1
  • 0
  • 约5.81千字
  • 约 79页
  • 2017-11-28 发布于湖北
  • 举报
第十一章 简单回归分析1

若以反应变量取值Yi为横坐标,以标准化残差为纵坐标,构成的散点图如图11-7所示。类似地,也可以自变量取值Xi为横坐标, 以标准化残差为纵坐标,构成的散点图。这类散点图统称为标准化残差图。 图11-8给出的是以自变量取值为纵坐标,以残差为横坐标的残差图的常见类型。其中,图(e)显示残差呈随机分布;图(a)、(b ) 和(f)表示残差不满足方差齐性条件;图(c)显示存在非线性关系;图(d)显示有的点处于?2倍标准差以外,可能是异常点。 图11-8 不同类型的标准化残差图 第四节 非线性回归 非线性回归要比线性回归更能充分地表达变量间的关系。当今线性回归之所以比非线性回归应用甚多,原因在于无论从数学理论还是计算方法,线性回归都比非线性回归模型简单得多。 通过自变量的变换实现线性化 实践中有两类非线性关系,一类是通过自变量X的适当变换可线性化的,另一类是不可能通过自变量X的变换实现线性化的 X数据变换 不能线性化的关系 变换自变量实现线性回归步骤 1.将观测数据(Xi, Yi),i=1,2,…,n作散点图,观察散点分布特征类似于何种函数类型; 2.按照所选定的函数进行相应的变量变换; 3.对变换后的数据用常规最小二乘法(OLS)作线性模型的参数估计。 4.一般拟合多个相近的模型,然后通过对各个模型的拟合优度评价挑选较为合适的模型。 例11-2 某研究者用免疫球蛋白A(IgA,ug/ml) 的不同浓度做火箭电泳,测得电泳高度(nm)如表11-4所示。欲用合适的回归模型描述火箭高度随IgA浓度的变化规律 IgA(μg/ml) 火箭电泳高度(nm) X*=lnX 0.2 7.6 -1.6094 0.4 12.3 -0.9163 0.6 15.7 -0.5108 0.8 18.2 -0.2231 1.0 18.7 0.0000 1.2 21.4 0.1823 1.4 22.6 0.3365 1.6 23.8 0.4700 表11-4免疫球蛋白A不同浓度下的火箭电泳高度 由结果可见:在所拟合的三种模型中,以x对数函数回归的效果最佳,该模型拟合的残差均方最小,决定系数最大 模型名称 回归方程 F值 P值 R2值 简单线性 92.44 0.000 0.939 对数函数 763.50 0.000 .992 二次函数 185.17 0.000 0.987 值得一提的是,本节只涉及对自变量X进行变换,然后以变换后的数据用标准最小二乘(OLS)法求解模型的参数估计与模型评价。当涉及到对反应变量y实施非线性变换 [如Z=ln(Y)] 时,因为OLS只保证变换后的Z,即ln(Y)的残差平方和最小,并不能保证原变量Y的残差平方和也最小,所以在此情况下,我们建议用统计软件来完成非线性拟合,例如,用SAS系统中的PROC NLIN 程序产生非线性模型参数的最小二乘估计。 直线回归应用的注意事项 直线回归用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。 两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归分析。 1.根据分析目的选择变量及统计方法 2.进行回归分析前应绘制散点图 (1) 散点图可考察两变量是否有直线趋势; (2) 可发现异常点(outlier)。 散点图对异常点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。 3.资料的要求 直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量; * 对于双变量正态分布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X ,一般情况下两个回归方程不相同)。 反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数的绝对值,而不是假设检验的P值。 P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围。 4.结果解释及正确应用 当实际资料不能满足直线回归模型的要求而无法用最小二乘法估计回归方程时,可使用秩回归 * 总体回归系数β的的统计推断 1、t检验法 对回归系数作检验 2、回归方程的假设检验

文档评论(0)

1亿VIP精品文档

相关文档