概率论与数理统计十章 回归分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
概率论与数理统计十章 回归分析

PAGE PAGE 15 第十章 回归分析 回归分析方法是数理统计中的常用方法之一,是处理多个变量之间相关关系的一种数学方法. 第一节 回归分析的概述 在客观世界中变量之间的关系有两类,一类是确定性关系,例如欧姆定律中电压U与电阻R、电流I之间的关系为U=IR,如果已知这三个变量中的任意两个,则另一个就可精确地求出.另一类是非确定性关系即所谓相关关系.例如,正常人的血压与年龄有一定的关系,一般来讲年龄大的人血压相对地高一些,但是年龄大小与血压高低之间的关系不能用一个确定的函数关系表达出来.又如施肥量与农作物产量之间的关系,树的高度与径粗之间的关系也是这样.另一方面,即便是具有确定关系的变量,由于试验误差的影响,其表现形式也具有某种程度的不确定性. 具有相关关系的变量之间虽然具有某种不确定性,但通过对它们的不断观察,可以探索出它们之间的统计规律,回归分析就是研究这种统计规律的一种数学方法.它主要解决以下几方面问题. (1)从一组观察数据出发,确定这些变量之间的回归方程. (2)对回归方程进行假设检验. (3) 利用回归方程进行预测和控制. 回归方程最简单的也是最完善的一种情况,就是线性回归方程.许多实际问题,当自变量局限于一定范围时,可以满意地取这种模型作为真实模型的近似,其误差从实用的观点看无关紧要.因此,本章重点讨论有关线性回归的问题.现在有许多数学软件如Matlab,SAS等都有非常有效的线性回归方面的计算程序,使用者只要把数据按程序要求输入到计算机,就可很快得到所要的各种计算结果和相应的图形,用起来十分方便. 我们先考虑两个变量的情形.设随机变量y与x之间存在着某种相关关系.这里x是可以控制或可精确观察的变量,如在施肥量与产量的关系中,施肥量是能控制的,可以随意指定几个值x1,x2,…,xn,故可将它看成普通变量,称为自变量,而产量y是随机变量,无法预先作出产量是多少的准确判断,称为因变量.本章只讨论这种情况. 由x可以在一定程度上决定y,但由x的值不能准确地确定y的值.为了研究它们的这种关系,我们对(x,y)进行一系列观测,得到一个容量为n的样本(x取一组不完全相同的值):(x1,y1),(x2,y2),…,(xn,yn),其中yi是x=xi处对随机变量y观察的结果.每对(xi,yi)在直角坐标系中对应一个点,把它们都标在平面直角坐标系中,称所得到的图为散点图.如图10-1. 图10-1 由图10-1a可看出散点大致地围绕一条直线散布,而图10- 如果图中的点像图10-1a中那样呈直线状,则表明y与x y=a+bx+ε (10.1) 来描述它们之间的关系.因为x不能严格地确定y,故带有一误差项ε,假设ε~N(0,σ2),相当于对y作这样的正态假设,对于x的每一个值有y~N(a+bx,σ2),其中未知数a,b,σ2不依赖于x,(10.1)式称为一元线性回归模型(Univariable linear regression model). 在(10.1)式中,a,b,σ2是待估计参数.估计它们的最基本方法是最小二乘法,这将在下节讨论.记和是用最小二乘法获得的估计,则对于给定的x,方程 (10.2) 称为y关于x的线性回归方程或回归方程,其图形称为回归直线.(10.2)式是否真正描述了变量y与x客观存在的关系,还需进一步检验. 实际问题中,随机变量y有时与多个普通变量x1,x2,…,xp(p1)有关,可类似地建立数学模型 y=b0+b1x1+…+bpxp+ε, ε~N(0,σ2), (10.3) 其中b0,b1,…,bp,σ2都是与x1,x2,…,xp无关的未知参数.(10.3)式称为多元线性回归模型,和前面一个自变量的情形一样,进行n次独立观测,得样本: (x11,x12,…,x1p,y1),…,(xn1,xn2,…,xnp,yn) 有了这些数据之后,我们可用最小二乘法获得未知参数的最小二乘估计,记为0,1,…,p,得多元线性回归方程 = (10.4) 同理,(10.4)式是否真正描述了变量y与x1,x2,…,xp客观存在的关系,还需进一步检验. 第二节 参数估计 1.一元线性回归 最小二乘法是估计未知参数的一种重要方法,现用它来求一元线性回归模型(10.1)式中a和b的估计. 最小二乘法的基本思想是:对一组观察值(x1,y1),(x2,y2),…,(xn,yn),使误差εi=yi-(a+bxi)的平方和 Q(a, b) = (10.5) 达到最小的和作为a和b的估计,称其为最小二乘估计(Least squares estimates).直观地说,平面上直线很多,选取哪一条最佳呢?很自然的一个想法是,当点(xi,yi),i=1

文档评论(0)

junzilan11 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档