- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九章回值归分析
PAGE
PAGE 217
第九章 回归分析
9.1 一元线性回归
9.1.1 引言
在客观现象中,普遍存在着变量与变量之间的某种关系。数学上是用数量来描述这些关系。人们通过各种实践,发现变量之间的关系概括起来可分为“确定性的”与“非确定性的”两个类型。例如,作匀速直线运动的物体,经过的路程(S)与时间(t)的关系满足
这就是说,对已知的时间t,路程S可由上式完全确定,反之亦然。这是确定性关系。数学上称这种确定关系为“函数关系”。
但在客观现象中,还存在着另一种类型的变量之间的关系,它们不能用函数的关系叙述。例如,人的身高x与体重Y是两个变量,在通常情况下,即使是身高完全相同的两个人,体重也不一定一样,因而身高不能完全确定体重,但平均来说,身高者体重也大些。x与Y之间的关系是“非确定性”关系。产生这种关系的原因是一些不可控制的因素,如遗传,性格,饮食习惯等。像这样的例子是很多的,如年龄与血压的关系,炼钢炉中铁水的含碳量与冶炼时间的关系,农作物的产量与施肥量的关系等。数学上称这种非确定性关系为“相关关系”。
在相关关系中的变量,有的是可以控制的,如年龄与血压的关系中的变量年龄,炼钢炉中铁水的含碳量与冶炼时间中的关系中的变量冶炼时间等。但大多数变量都是不可控制的,如炼钢炉中铁水的含碳量与冶炼时间中的变量含碳量就是不可控制的,冶炼时间一定,含碳量却不能确定,这种不可控制的变量是随机变量。严格地说,讨论自变量为可控变量而因变量为随机变量的关系问题称为回归分析;讨论随机变量之间的关系问题称为相关分析。这两种问题有时也统称为回归分析,或统称为相关分析。
回归这个名词由英国统计学家F·Galton在1885年首先使用,他在研究父亲身高与儿子身高之间的关系时发现:高个子父亲所生儿子比他更高的概率要小于比他矮的概率;同样,矮个子父亲所生儿子比他矮的概率小于比他高的概率。这两种高度父亲的后代,其高度有向中心(平均身高)回归的趋势。
我们怎样来研究因变量(也称响应变量)Y与自变量x之间的相关关系呢?由于Y是随机变量,故对于自变量x的每一个确定的值,Y有一定的概率分布,因此,假如Y的数学期望若存在的话,则E(Y/x)显然是x的函数。统计上称Y的条件期望
(9.1.1)
为Y对x回归函数,简称回归。
回归函数描述了因变量Y的均值与自变量x的相依关系,例如,若Y表示某种农作物的亩产量,x表示每亩的施肥量,则可理解为在相当大的面积上每亩施肥量为x时的亩平均产量,由于Y分布是未知的,故回归函数也是未知的。我们只能利用试验数据对进行估计,统计学称估计的问题为求Y对x的回归问题。
下面介绍求回归问题的一般步骤:
(1)求取试验数据
取自变量x一组不全相同的数值: 进行n次独立试验,得到Y的相应观察值:。于是就构成n对数据
我们称这n对数据为样本观察值。
(2)选取回归模型
所谓选择模型,是指选取怎样的函数来描述。这不是一个纯数学问题,它往往要结合经验或试验来确定,统计学的方法能帮助我们根据试验初步确定这个函数的类型。具体作法是:将样本观察值在直角坐标系中描出,得到的图形称为“散点图”。它的分布状况可帮助我们粗略地选定的类型。如果“散点图”近似在一条直线上,我们就可以选取,这时可建立回归模型
其中a和b是待估计的参数。ε称为统计误差。统计误差由模型误差和随机误差构成。模型误差是Y与x的真实回归关系与选取的回归函数之间的误差,如果选取的回归函数正确,模型误差可忽略不计。故ε为随机误差,。
(3)对回归模型中未知参数作估计
如果回归模型已经选定,接下来的问题就是对模型中的未知参数进行估计。通常采用最小二乘法估计和极大似然估计方法得到回归函数中未知参数的估计量,矩估计得到响应变量Y的方差2的估计量。若将此估计代入选定的回归函数中得到经验回归方程。如就是一元线性回归中的经验回归方程。
(4)对选定的模型进行检验
模型的选定是根据经验或“散点图”。很明显,根据这些理由而选定的模型与实际数据是否有良好的吻合是不足为据的。因此,有必要用样本观察值对选定的模型进行检验。如检验Y与x是否有线性关系,就是检验假设Ho :b = 0 。如果通过样本观察值拒绝了Ho,就可以为Y与x显著地存在线性关系。否则Y与x的线性关系不显著。
(5)预测与控制
实际中,当自变量x 取一个值时,Y的取值如何是一个很值得考虑的问题。也就是说,当自变量x取定一数值时,对Y的取值作一个估计(点估计和区间估计),这就是预测。另外,如果预先将Y的取值控制在某一范围内
原创力文档


文档评论(0)