- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
陈进源回归解析讲义
PAGE
PAGE 18
回 归 分 析
(陈进源)
§1 线性回归引论
高尔顿是生物统计学派的奠基人,他的表哥达尔文的巨著《物种起源》问世以后,触动他用统计方法研究智力遗传进化问题,第一次将概率统计原理等数学方法用于生物科学,明确提出“生物统计学”的名词.现在统计学上的“相关”和“回归”的概念也是高尔顿第一次使用的,他是怎样产生这些概念的呢?1870年,高尔顿在研究人类身长的遗传时,发现下列关系:高个子父母的子女,其身高有低于其父母身高的趋势,而矮个子父母的子女,其身高有高于其父母的趋势,即有“回归”到平均数去的趋势,这就是统计学上最初出现“回归”时的涵义。
回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则要分析现象之间相关的具体形式,确定其因果关系,并用数学模型来表现其具体关系。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。
一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。
回归分析是研究变量之间相关关系的一种统计推断法。
例如,人的血压y与年龄x有关,这里x是一个普通变量,y是随机变量。Y与x 之间的相依关系f(x)受随机误差的干扰使之不能完全确定,故可设有:
式中f(x)称作回归函数,为随机误差或随机干扰,它是一个分布与x无关的随机变量,我们常假定它是均值为0的正态变量。为估计未知的回归函数f(x),我们通过n次独立观测,得x与y的n对实测数据(xi,yi)i=1,……,n,对f(x)作估计。
实际中常遇到的是多个自变量的情形。
例如 在考察某化学反应时,发现反应速度y与催化剂用量x1,反应温度x2,所加压力x3等等多种因素有关。这里x1,x2,……都是可控制的普通变量,y是随机变量,y与诸xi间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有:
这里是不可观察的随机误差,它是分布与x1,……,xk无关的随机变量,一般设其均值为0,这里的多元函数f(x1,……,xk)称为回归函数,为了估计未知的回归函数,同样可作n次独立观察,基于观测值去估计f(x1,……,xk)。
以下的讨论中我们总称自变量x1,x2,……,xk为控制变量,y为响应变量,不难想象,如对回归函数f(x1,……,xk)的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y和控制变量x1,x2,……,xk呈现线性相关关系的情形,即假定
f(x1,……,xk)=b0+b1x1+……+bkxk。
并称由它确定的模型 (k=1)及为线性回归模型,对于线性回归模型,估计回归函数f(x1,……,xk)就转化为估计系数b0、bi(i=1,……,k) 。
当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称为多元线性回归模型,本着由浅入深的原则,我们重点讨论一元的,在此基础上简单介绍多元的。
§2 一元线性回归
一、一元线性回归的数学模型
前面我们曾提到,在一元线性回归中,有两个变量,其中x是可观测、可控制的普通变量,常称它为自变量或控制变量,y为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定y与x之间存在着显著的线性相关关系,即y与x之间存在如下关系:
y=a+bx+ (2.1-6)
通常认为 ~N(0,σ2)且假设σ2与x无关。将观测数据(xi,yi)(i=1,……,n)代入(2.1-6)再注意样本为简单随机样本得:
(2.1-7)
称(2.1-6)或(2.1-7)(又称为数据结构式)所确定的模型为一元(正态)线性回归模型。对其进行统计分析称为一元线性回归分析。
不难理解模型(2.1-6)中EY=a+bx,若记y=E(Y),则y=a+bx,就是所谓的一元线性回归方程,其图象就是回归直线,b为回归系数,a称为回归常数,有时也通称a、b为回归系数。
我们对一
文档评论(0)