- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[数学]回归分析
1 回归分析内涵及相关原理
你知道日常生活中的天气预报是如何实现的吗?气象学家根据既往的温度、湿度以及降雨等资料,就可以预报未来一段时间某地的天气变化情况。这要求对这些变量之间的关系有精确的掌握。前面的学习中,我们知道相关分析可用来帮助我们分析变量之间关系的强度;而倘若要确定变量之间数量关系的可能形式也即数量模型,则通常可采用回归分析法。回归分析的应用十分广泛,它不但适用于实验数据,还可以分析未作实验控制的观测数据或历史资料。
有人可能会好奇,为什么叫“回归”这个名称,它有什么具体含义?实际上,回归这种现象最早由英国生物统计学家高尔顿在研究父母亲和子女的遗传特性时所发现的一种有趣的现象:身高这种遗传特性表现出“高个子父母,其子代身高也高于平均身高;但不见得比其父母更高,到一定程度后会往平均身高方向发生‘回归’”。这种效应被称为“趋中回归”。现在的回归分析则多半指源于高尔顿工作的那样一整套建立变量间数量关系模型的方法和程序。
运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。两变量间的相关关系可以用散点图来反映,图中的每个点都代表一个变量配对样本点,它是自变量与因变量间关系的一个具体代表。在相关分析中,我们详细地分析过相关关系的几何意义和数量特点。显然,若这些散点都落在一条直线上(完全相关),则该条直线当然能够代表变量间的数量关系——一次函数关系。但在回归分析中,我们要解决的是一般情况下(不完全相关),如何寻找一条最恰当的直线能代表呈线性关系的两个变量间的直线关系趋势,也就是能够最大程度拟合这些散点的直线。
?
最小二乘法原理
我们将那条要找的直线用 = a + bx 来表示,这个方程称为回归方程。这里之所以用而不用 y,是因为 (x,y) 是实际观测的值,而直线上的点(x, )不一定在实际中会出现,也就是说是估计值。
线性回归的目的就是去确定回归方程中的系数 a 和 b,这些系数称为回归系数。确定回归系数通常利用最小二乘法原理,即满足最佳拟合要求的回归直线应当使得该直线与所有散点在纵坐标上的总偏差(如上图,这个偏差就是估计值和观测值间的差异,也就是误差)达到最小,下面是用最小二乘法求回归系数的推导过程。
一个点到直线的沿 y 轴方向的距离可以表示为:
所有点到直线的沿 y 轴方向的离差平方和为:
由于 Q 是 a 和 b 的函数,要使它最小,在数学上采用求偏导并令导数为 0 的办法来求解系数 a 和 b:
有困难阅读上面推导的读者只需记住上面推导的结果:
对于中间数据用
从这一结果我们看到回归系数 b 与两变量间的相关系数 r 有一定的关系,因为、 ,
所以
。
对于原始数据用
【例1】 根据下面 10 对数据,建立心理量(Y)与物理量(X)之间的回归方程,表中物理量是取对数后的值。
变量 数????????????? 据 和 Y 1 1 3 3 4 5 6 7 8 9 47 X 0 2 1 5 4 2 6 2 5 7 34 X2 0 4 1 25 16 4 36 4 25 49 164 XY 0 2 3 15 16 10 36 14 40 63 199 ?
解:将表中计算的中间结果代入公式有:
因此,回归方程为 = 1.95 + 0.81x,有了这个方程,假设又有一个新物理量 x = 4.5,可以将它代入方程,求得对应心理量的可能取值为 = 1.95 + 0.81×4.5 = 5.6,当然实际当中同一个物理量,对于不同被试或者对同一被试不同时刻进行施测所得到的心理量 y 是不同的,根据这里的回归方程所得的 只是所有可能 y 值的一个平均估计。
根据样本数据计算回归方程中的系数是回归分析的第一步。然而,得出的回归方程是否真正反映两个变量之间的线性关系,用它来预测或估计的有效程度如何,是应用回归方程时首先要解决的问题,因此建立回归方程之后,还要对回归方程进行检验和评价。
对回归方程的检验就是判断方程是否有意义,即变量之间是否存在那样的线性关系,包括两个方面:一个是从总体上对方程进行方差分析,看整个方程是否有意义;另一方面是对每个自变量前的回归系数(b)进行检验,看它是否与 0 有显著的差异,与 0 有显著差异的系数所对应的自变量才对方程有贡献。
对回归方程的评价主要用于反映回归效果,即回归方程显著的话,它好到什么程度。
?
回
文档评论(0)