- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 回归分析简介及其在均匀设计中的应用 回归分析是数据分析的有力工具,它能揭示变量之间的相互关系,因此在均匀设计的数据分析中成为主要的手段,回归分析方法和理论十分丰富,有关书籍数以百计,这里仅作一梗概介绍,细节可以参看有关书籍,如[26,29,30]数据处理可使用统计软件包SAS,SPSS,MINITAB,BMDP,S等,国内许多部门如中国均匀设计学会为均匀设计及其数据分析制作了专用统计软件包,使用更为方便。
2.1 一元线性回归模型 由于均匀设计的数据分析要利用回归分析,因此需要对回归分析作一扼要介绍。一元线性回归是处理两个变量之间关系的最简单的模型。本章将详细讨论这个模型。一元线性回归虽简单,但从中可以了解回归分析方法的基本思想/方法和应用。
我们首先通过一个例子说明如何建立一元线性回归方程。
例3 为了估计山上积雪融化后对下游灌溉的影响,在山上建立了一个观测站,测量了最大积雪深度(X)与当年灌溉面积(Y),得到连续10年的数据于下页表中。
为了研究这些数据中所蕴含的规律性,我们把各年最大积雪深度作横坐标,相应的灌溉面积作纵坐标,将这些数据点标在平面直角坐标图上,如图9,这个图称为散点图。
从图9看到,数据点大致落在一条直线附近,这告诉我们变量X与Y之间的关系大致可看作是线性关系,从图9还看到,这些点又不都在一条直线上,这表明X与Y的关系并没有确切到给定X就可以唯一地确定Y的程度。事实上,还有许多其他因素对Y产生影响,如当年的平均气温,当年的降雨量等等,这些都是影响Y取什么值的随机因素。如果我们只研究X与Y的关系,可以假定 年序 最大积雪深度X 尺 灌溉面积Y 千亩 1 15.2 28.6 2 10.4 19.3 3 21.2 40.5 4 18.6 35.6 5 26.4 48.9 6 23.4 45.0 7 13.5 29.2 8 16.7 34.1 9 24.0 46.7 10 19.1 37.4 有如下结构式: Y α+βX+ε 2.1
式中α,β 称为回归系数,X为自变量,Y为因变量,ε表示随机误差,常常假定ε遵从正态分布N(0,σ2),这表示误差为正和负的机会一样多,σ2 表示误差的大小。式中α,β,σ2 通常是未知的,它们要通过数据的信息来估计。 设{(),i 1,…n}为一组数据,若用回归方程(2.1)来拟合,则当X 时的估计值为 2.2 自然,我们希望求α和β使与很接近.也就是说,我们要决定一条直线,使其与所有的点都比较接近,最流行求α,β 估计值的办法是用最小二乘法,令 2.3
最小二乘法是求α和β使Q达极小,使Q达极小的α和β值记为a和b.利用微积分中求极值的办法求得 2.4
式中 2.5 利用这些公式到例3,得
于是 b 415.606/230.656 1.802 a 36.53-1.802×18.88 2.511
从而回归方程为
读者试将该直线画在图9上,可以看到拟合的效果是不错的,衡量拟合效果的好坏,如下的方法是十分有用的。 a 相关系数 相关系数 用于描叙变量X和Y的线性相关的程度,并常用r来表示,r的值介于[-1,1]之间,它的意义由图10可以知道。r的绝对值越接近于1表示X和Y之间的线性关系越密切;r〉0,两者呈正比关系,叫正相关;r〈 0两者呈负相关。r的值接近于0,两者没有线性相关关系。图10中(c)表示X和Y没有任何关系,(d)表示X和Y有非线性相关关系,r的计算公式为 2.6
式中 2.7
对例3 764.861 r 415.605/ 0.9894
后者很接近于1,故最大积雪深度与灌溉面积有很密切的线性相关关系,且是正相关.但是,相关系数有一个缺点,就是它接近1的程度与样本的组数n是有关的,当n较小时,相关系数的绝对值容易接近于1,当n较大时,相关系数的绝对值容易偏小。特别当n 2时,因为两点决定一条直线,所以相关系数的绝对值总为1,在许多统计书中[29]给出相关系数的起码值,当相关系数的绝对值大于表中之值时才可以认为X和Y有线性关系。此例当显著性水平α 1%时,表中的起码值为0.765,今计算r 0.9894 > 0.765,故最大积雪深度与灌溉面积有高度的线性关系。
在有些统计软件中,常给出,这时便于区别记为。 (b)方差分析和F检验 因变量的波动可用来表达,这个波动是由两个因素造成的;一个是X的变化引起Y相应的变化,另一个是随机误差。前者造成Y的波动可用回归平方和来表达,后者用残差平方和来度量。它们分别用 和来表示,从数学上可以导出 = =- (2.8
当X和Y为线性回归模型(2.1)时,它们有如下更方便的计算公式 = =- 2.9 利用统计量 F= 2.10
可以来检验回归方程(2.1)是否可信.当方程可信时F 〉,这
文档评论(0)