SAS讲义第三十一课一元线性回归分析.doc

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SAS讲义第三十一课一元线性回归分析

一元线性回归分析 回归分析是一种统计分析方法,它利用两个或两个以上变量之间的关系,由一个或几个变量来预测另一个变量。在SAS/STAT中有多个进行回归的过程,如REG、GLM等,常用于进行一般线性回归模型分析的为REG过程。 回归模型 基本概念 回归模型是一种正规工具,它表示统计关系中两个基本的内容:①用系统的形式表示因变量Y随一个或几个自变量X变化的趋势;②表现观察值围绕统计关系曲线的散布情况。这两个特点是由下列假设决定的: 在与抽样过程相联系的观察值总体中,对应于每一个X值,存在Y的一个概率分布;这些概率分布的均值以一些系统的方式随X变化。 图311是用透视的方法来显示回归曲线。Y对给定X具有概率分布这一概念总是与统计关系中的经验分布形式上相对应;同样,描述概率分布的均值与X之间关系的回归曲线,与统计关系中Y系统地随X变化的一般趋势相对应。 在回归模型中,X称为“自变量”,Y称为“因变量”;这只是传统的称法,并不表明在给定的情况下Y因果地依赖于X ,无论统计关系多么密切,回归模型不一定是因果关系,在某些应用中,比如我们由温度表水银柱高度(自变量)来估计温度(因变量)时,自变量实际上依赖于因变量。此外,回归模型的自变量可以多于一个。 回归模型的构造 自变量的选择。 构造回归模型时必须考虑到易处理性,所以在有关的任何问题中,回归模型只能(或只应该)包括有限个自变量或预测变量。 回归方程的函数形式。 选择回归方程函数形式与选择自变量紧密相关。有时有关理论可能指出适当的函数形式。然而,通常我们预先并不能知道回归方程的函数形式,要在收集和分析数据后,才能确定函数形式。我们经常使用线性和二次回归函数来作为未知性质回归方程的最初近似值。图312 a 表示复杂回归函数可以由线性回归函数近似的情况,图312 b 表示复杂回归函数可以由两个线性回归函数分段近似的情况。 模型的范围。 在建立回归模型时,通常需要限制模型的自变量或因变量取值的区间范围,这个范围由调查设计和已掌握数据的情况决定。 回归分析的运用。 回归分析主要有3个目的:描述,控制和预测。 未指定误差项分布的回归模型 模型的正规表述 现在我们只限于一个自变量的基本回归模型,且回归函数是线性的,可表述如下: 31.1 其中,是第次观测或试验中因变量的取值,和是参数,为第次观测或试验中自变量的取值,是随机误差项,其基本假设应该满足三个条件: 均值E =0; 方差; 协方差,当i j时。即对所有的 i j ,与互不相关。 模型(31.1)称为简单模型,参数是线性的,自变量也是线性的。所谓“简单”,是因为它只有一个自变量,“参数线性”是指没有参数具有指数形式、或者被另一个参数相乘或相除,“自变量线性”是指这个自变量是一次的。参数和自变量都是线性的模型称为一阶模型。 模型的重要特点 第次观察中的观察值包括2部分:常数项和随机项的和。所以是随机变量。因为E 0,这样: 31.2 其中,是常数。因此,当第次试验中取为时,相应的来自一个概率分布,其均值是: 31.3 所以模型(31.1)的回归函数是: 31.4 这样对任何给定的,回归函数把水平与的概率分布均值联系起来。 在第次试验中,的观察值超过或低于回归函数值的部分为误差项部分。假设误差项具有相同的方差 ,所以相应的的方差为: 这是因为 。 无论自变量取值如何,模型(31.1)总是假设的概率分布具有相同的方差且假设误差项互不相关。因此任何一次试验的结果对其他各次试验的误差项都没有影响,相应的 与也互不相关。 总之,模型(31.1)的含义为:对所有水平的来说,因变量观察值都来自均值、方差 的概率分布。此外,任何两个观察值 与 是互不相关的。 最小二乘估计法 观测数据图 设有一组T期间内关于二变量和的样本观测值(,)(t=1,2,…,N),在和之间存在着函数关系,如果将这些观测数据,在2维平面上用图来表示,只要数据至少有3个以上,那么所有的点大概不可能都在一条直线上。以被认为在X和Y之间成立的未知回归直线 Y= + X 为中心,观测点总是适当地散布在其周围。未知回归直线和各观测点的垂直方向的间隔就是上节引进的概率误差项。由于 和 的数值未知,所以不能准确地知道与各观测点对应的概率误差项的值。大致来说,可以认为回归直线是从散布在平面上的各观测点的中央穿过的直线。根据所给的观测数据来估计这条直线的位置( 和 的值),是我们需要解决的主要问题。 误差二乘和的最小化 估计回归直线的方式(规则)有各种各样的考虑。但是,对于确定 和 的值时,要使所有的观测点和直线的“距离”从整体来说为最小这个一般的规则,大概无论谁也没有异议。意见的分歧在于究竟要用什么尺度

文档评论(0)

almm118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档