网站大量收购独家精品文档,联系QQ:2885784924

一元线性回归直线拟合.PPT

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一元线性回归直线拟合

父亲们与儿子们的身高关系之间的研究 1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录 试图寻找出儿子们身高与父亲们身高之间关系的具体表现形式 下图是根据1078个家庭的调查所作的散点图(略图) “回归”一词的由来 从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下: 如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见1889年F.Gallton的论文《普用回归定律》。 后人将此种方法普遍用于寻找变量之间的规律 最小二乘法的地位与作用 现在回归分析法已远非道尔顿的本意。 已成为探索变量之间关系最重要的方法,用以找出变量间关系的具体表现形式。 后来,回归分析法从其方法的数学原理——误差平方和最小(平方是一个数的自乘,也叫二乘)出发,改称为最小二乘法。 设拟合直线方程: 由于实验数据总是存在着误差,所以把各组数据代入y=a+bx时,两边并不相等,作图时,数据点也不能准确地落在公式对应的直线上,如图所示,从中还可看出第i个数据点与直线的偏差为 a.一元线性回归及最小二乘法的原理 * * * * * * * O x Vi Y a.一元线性回归及最小二乘法的原理 纵向距离是y的实际值与拟合值之差,差异大拟合不好,差异小拟合 好,所以又称为拟合误差或残差。 将所有纵向距离平方后相加,即得误差平方和,“最好”直线 就是使误差平方和最小的直线。 于是可以运用求极值的原理,将求最好拟合直线问题转换为求 误差平方和最小。 0 y yi x y=a+bx xI 最小二乘拟合法 小结:最小二乘法拟合 y=a+bx 若实际校准测试点有n个,则第i个校准数据与拟合直线上响应值之间的残差为 最小二乘法拟合直线的原理就是使 为最小值,即 对a和b一阶偏导数等于零,求出a和b的表达式 一元线性回归(直线拟合) 函数形式 (1) 实验数据为 由于x和y的测量存在误差,将 代入(1)式,等式两边并不相等。 等式两端的差值用 表示,则 …... 按最小二乘法原理,a、b最佳值应满足: (2) 由于 最小, (2)式对a和b求偏导应为0。 整理后得 (3) 由于 代入(3)式有: 为了计算方便,引入符号: 总结经验公式时,我们初步判断所假定的函数关系是否正确?为了解决这些问题,就需要讨论回归方程的精度和相关性。为了估计回归方程的精度,进一步计算数据点(xi ,yi)偏离最佳直线y=a+bx的大小,我们引入概念—剩余标准偏差,它反映着回归方程与各数据点的拟合程度。 b. 回归方程的精密度和相关系数 最小二乘法确定a,b有没有误差? 斜率 截距 测量值 相关系数r 定量描述x、y变量之间线性相关程度的好坏(寻找经验公式用) (2)r=0时, 即y与x无线性关系,说明数据点的分布规律非线性。 r0,拟合曲线斜率为正,r0 斜率为负。 (3)r=±1时, Sy=0,即各数据点与最佳直线完全重合, x,y 完全线性相关。 (4) 0r1时,各数据点与最佳直线不完全重合。有两种情况: 讨论: (1) r称为相关系数。其值可正可负,一般有 一种可能是各数据点与该线偏差较小,一种可能是各数据点与该线偏差较大。 一般来说数据点就越靠近最佳直线两旁。两变量间的关系线性相关,可以认为是线性关系,最佳直线所反应的函数关系也越接近两变量间的客观关系。同时还说明了测量的精密度高。 根据数据点的分布,也许能得到一条“最佳”直线。然而,数据点与“最佳”直线的偏差过大。如图所示。这时“最佳”二字只能说明数据点距这直线的总偏差较小,但不能反映出数据点的分布规律。或者说,我们事先的初步判断是错误的,数据点的分布规律不是线性的,根本就不能用一条直线表示。 由上述分析可知,Sy的数值表明了线性回归方程的精密度,或者,形象地说,描绘了回归线的“宽度”。可以证明,数据点落在 范围内的机会是99.7%,按照多次直接测量中讨论的相同标准,也可判别其是否有

您可能关注的文档

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档