- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
郑平正 制作 3.分析方程回归效果的常用方法 59 43 61 64 54 50 57 48 体重/kg 170 155 165 175 170 157 165 165 身高/cm 8 7 6 5 4 3 2 1 编号 假设2:随机误差对体重没有影响,也就是说,体重仅受身高的影响,那么散点图 中所有的点将完全落在回归直线上。 怎样研究随机误差? * * * 郑平正 制作 3.1回归分析的基本思想及其初步应用(一) 高二数学 选修2-3 求回归方程的关键是如何用数学的方法来刻画 “从整体上看各点与此直线的距离和最小” . 选 变 量 画散点图 选 模 型(线性) 估计参数(a,b) 分析和预测 建立回归模型的基本步骤 通过散点图,可直观地分析和了解两个变量是否存在相关关系,以确定回归模型. 通过分析相关指数、随机误差(残差图),进行预报. 这也就是回归分析的基本思想. 最小二乘法估计公式: 探究1:你能推导出着两个计算公式吗?(推导思路见下一片;推导过程见课本) 回归直线一定过样本点的中心! 对于一组具有线性相关关系的数据: (x1,y1), (x2,y2), …, (xn,yn), 我们知道其回归直线y=bx+a的斜率和截距的最小二乘估计分别为: 后两项与α,β无关 前两项均为正且与α,β有关 此项为0,Q有最小值. 例1 从某大学中随机选取8名女大学生,其身高和 体重数据如表1-1所示: 59 43 61 64 54 50 57 48 体重/kg 170 155 165 175 170 157 165 165 身高/cm 8 7 6 5 4 3 2 1 编号 求根据女大学生的身高预报她的体重的回归方程, 并预报一名身高为172cm的女大学生的体重. 问题呈现:女大学生的身高与体重 分析:1、选取身高为自变量x,体重为因变量y,作散点图: 2、由散点图可以看出,样本点呈现条状分布,身高和体重有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系. 3、从散点图还看到,样本点散布在某一条直线的附近,而不是在一条直线上,所以不能用一次函数y=bx+a描述它们关系. 解:1.由于问题中要求根据身高预报体重,因此选取身高为自变量x,体重为因变量y. 3.用公式求出回归方程: 2. 画散点图; 本例中, 可求得r=0.7980.75.这表明体重与身高有很强的线性相关关系,从而也表明我们建立的回归模型是有意义的. 身高172cm女大学生可以预报其体重为: 所以回归方程为: 对回归模型进行统计检验 探究2:身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解析一下原因吗? 答:身高为172cm的女大学生的体重不一定是60.316kg,但一般可以认为她的体重接近于60.316kg. 下图中的样本点和回归直线的相互位置说明了这一点. 由于样本点不在同一条直线上,只是散布在某一条直线附近,所以身高与体重的关系可用线性回归模型:y=bx+a+e, …… (3) 来表示,其中a和b为模型的未知参数,e是y与bx+a之间的误差.通常e为随机变量,称为随机误差(random error),即e称为随机误差.它的均值E(e)=0,方差D(e)=σ2.这样线性回归模型的完整表达式为: 一般假定均值为0,即期望各点都在直线y=bx+a上. 思考:产生随机误差e的原因(主要来源)是什么? 一个人的体重除了受身高的影响外,还受其他许多因素的影响.其主要来源是(误差越小,回归模型的拟合效果越好!) (1)用线性回归模型近似真实模型(真实模型是客观存在的,只是通常我们不知道真实模型到底是什么)所引起的误差.另外可能存在非线性的函数能够更好地描述y与x之间的关系,但是现在却用线性函数来表达这种关系,结果就会产生误差.这种由于模型近似所引起的误差都包含在e中. (2)忽略了某些因素的影响.因为影响变量y的因素不只是变量x一个.例如:遗传因素、饮食习惯、是否喜欢运动等,所引起的误差都包含在e中. (3)观测误差.由于测量工具等原因造成度量误差也包含在e中. 事实上,我们无法知道身高和体重之间的确切关系是什么,这里只是利用线性回归方程来近似这种关系.这种近似以及上面提到的影响因素都是产生随机误差e的原因. 探究3:在线性回归模型中,e是用bx+a预报真实值y的随机误差,它是一个不可观测的量,那么怎样研究随机误差呢? 是真实值与估计值的差! 思考:如何发现数据中的错误?如何衡量模型的拟合效果? 即在实际应用中应该尽量选择 R2 大的回归模型. 例2、在一段时间内,某中商品的价格x元和需求量Y件之间的一组数据为: 求出Y对的回归直线方程,并说明拟合效果的好坏。 价格x 14 16 18 20 22 需求量Y 12
文档评论(0)