- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
卫生统计学10线性相关与回归2.ppt
中医科研设计与统计 湖北中医学院卫生教研室 中医科研设计与统计 湖北中医学院基础部卫生生物教研室(J-C204) Tel:027E-Mail:annworld@163.com 在上一节中我们通过直线相关分析知道了待产妇尿中雌三醇含量和新生儿体重之间成正相关关系。 那么,如果我们知道了一位待产妇的尿雌三醇含量,能推断出这个新生儿的体重吗?或者这个新生儿的体重可能在什么范围内呢? 对此相关分析不能给我们答案,这些问题需要使用直线回归的方法来解决。 第二节 线性回归 当我们知道了两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,那么它们的变化可用函数方程来表示。 在实际生活当中,由于其它因素的干扰,许多双变量之间的关系并不是严格的函数关系,不能用函数方程来反映。 但是,我们需要利用数学函数的理论去研究两变量之间的数量依存关系,为了区别于数学上确定的函数方程,我们称这种关系式为直线回归方程,这种关系为直线回归。 直线回归的统计模型 1.yi是xi的线性函数部分加上误差项εi; 2.α:截距(intercept),是x=0时y的本底水平; 3.回归部分βx :y的变化中随x变化而变化的部分; β称为回归系数(regression coefficient):自变量x每改变一个度量单位,应变量y改变量的平均估计值; 4.随机误差εi :又称残差(residual); 是不能由变量x所解释的变异部分; 反映了除变量x之外的随机因素对y的影响。 建立直线回归方程 利用样本数据计算参数α和β的估计值a和b,建立模型的估计方程,即寻找一条与所有散点都最为接近(实测点到直线的纵向距离)的直线,使得总的预测误差最小。 寻找总的预测误差最小的直线 最小二乘法(least square method) 怎样的 最好的代表了所有的y,需要有个标准。经典的标准是最小二乘(least squares)原则:每个观察点距离回归线的纵向距离的平方和最小,即残差平方和最小: 计算例1资料的估计值a和b 将估计值a和b代入方程 回归参数a、b的解释 1.斜率(b): 当x每增加1个单位时,y平均改变b个单位; 本例b=0.0608,表明待产妇尿中雌三醇含量每增加1mg/24h,新生儿体重平均增加0.0608kg。 2.截距(a): 当x=0时y本底水平的平均估计值; 本例a=2.1523,表示待产妇尿中雌三醇含量为0时,新生儿体重的本底值为2.1523kg(注意这种解释有时候并无实际意义,如x是否可取0)。 问题:直线回归方程的建立是否一定能说明雌三醇含量与新生儿体重之间存在回归关系? 与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得(即检验总体回归系数β是否为0)。 回归方程的假设检验 (一)回归系数的假设检验(t检验): 1.建立检验假设: H0:β=0 H1:β≠0 α=0.05 2.计算统计量t: 例1资料回归系数的t检验 (二)回归模型的假设检验(方差分析,ANOVA): 1.建立检验假设: H0:回归模型不成立 H1:回归模型成立 α=0.05 2.计算统计量F: 方差分析的基本思想:将应变量y的总变异分解成两个部分,一个是处理因素(自变量x)带来的回归变异,另一个是随机误差带来的残差变异。 回归变异:又称回归均方(方差),即y的变异中因为x对y的线性回归关系而带来的变异; 残差变异:又称残差均方(方差),是除了自变量x之外的其他随机因素对y带来的变异; F检验就是将两部分的变异进行比较: 如果F值接近1,说明回归变异和残差变异没有多大差别,两者都是随机误差,处理因素(自变量x)对应变量y没有线性回归关系,回归模型不成立; 如果F值远大于1,说明回归变异远大于残差变异,处理因素(自变量x)带来的变异不能简单的解释为随机误差,即处理因素(自变量x)对应变量y存在回归关系,回归模型成立。 从上图可以看出: 上式两端平方,数学上可以证明:y的总离均差平方和等于回归离均差平方和加上残差离均差平方和,y的自由度等于回归自由度加上残差自由度。 即:SS总=SS回+SS残,v总=v回+v残 例1资料的方差分析表 相关系数与回归系数假设检验的关系 直线回归分析的应用 1.建立统计模型解释应变量对自变量的数量依存关系 2.自变量预测应变量:利用已知、容易测量或可以测量的变量去预测未知、不易测量或不可测量的变量 由父亲的身高预测儿子成人后的身高; 3.应变量控制自变量:利用应变量反向控制自变量 已知铅作业的时间(x)与血铅浓度(y)的回归关系,当制定人体血铅正常值上限标准后,控制工人
文档评论(0)