- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
《统计学》课件 第8章 相关与回归分析 8.1 相关分析 8.2 一元线性回归分析 8.1.1 相关关系的概念 一、函数关系和相关关系 二、真实相关和虚假相关 三、相关关系和因果关系 二、真实相关与虚假相关 真实相关是指现象之间因符合有关实质性科学理论和逻辑常识确实存在的某种客观的内在联系,不是主观臆造的或者是数据上的巧合。 如:需求与价格和收入之间的相关,施肥量与水稻亩产量之间的相关,等等,就属于真实相关。 因果关系是一种相关关系,但相关关系不一定都是因果关系 因果关系,又称为“回归关系”,是指具有相关关系的变量之间具有主从关系,一个或一组变量的变化引起另一个变量的变化。(一个或多个变量是因,另一个变量是果)。 如:父母身高与子女身高之间的关系,就是一种因果关系。 具有相关关系的变量之间,如果不具有主从关系,而是具有平行关系,那么就不能认为是因果关系。 如:人的身高和体重之间的关系,只能是一种相关关系,不是因果关系。 8.1.2 相关关系的类型 一、按相关程度划分 二、按相关方向划分 三、按相关形式划分 四、按变量多少划分 8.1.3 相关关系分析的基本内容 (一)相关图 相关图,又称为散点图或散布图,是用来直观地显示两个变量之间相关关系的统计图,是进行相关分析和回归分析的重要工具。 绘制相关图的方法:将两个变量成对的观测数据在坐标图上标示出来,变量x的值为横坐标,另一个变量y的值为纵坐标,一对观测值对应一个点,n对样本观测数据就有n个点,这些观测点形成的图形,就是散点图。 若两个变量,一个是原因另一个是结果,则通常将原因放在横轴上,结果放在纵轴上。 (二)相关系数 1、一元相关系数及其计算 2、相关系数的性质 3、应用相关系数进行分析应注意的问题 一、一元线性回归方程的表现形式 二、一元线性回归方程的最小二乘估计 估计回归系数a和b的方法有多种,其中最简便、也是最常用的方法是普通最小二乘法。所谓普通最小二乘法(ordinary least squares,OLS)(或称最小平方法),是要求建立的回归直线满足因变量 的全部实际观测值与对应的回归估计值 的离差平方和为最小条件的一种估计方法。即: 一、点预测 就是将自变量x的数值代入所估计的回归方程中,计算出因变量y在相应的点预测值。 例如:根据前面建立的10名学生身高和体重的回归方程 二、区间预测 (一)预测平均误差(预测标准误差) (二)预测极限误差及置信区间 回归分析应特别注意的问题P82-83 1、要注意定性分析与定量分析相结合。 2、利用回归方程进行预测时,自变量x的取值若超过样本数据的范围,预测结果是不可靠的。 3、回归方分析最适合于研究变量之间的因果关系,将原因作为自变量,结果作为因变量。 (具体内容请自己自学) 判定系数(或可决系数)r2表示全部偏差中有百分之几的偏差可由x与y的回归关系来解释。如果全部偏差都是由回归关系来解释,则说明该直线拟合得最好。故而可用其来评价方程的拟合程度。 (四)判定系数(r2)的特点 (五)判定系数(r2)与相关系数(r)的关系 二者的联系 二者的联系(续前) 二者的区别 证明: 故 例:仍以前面10名同学的身高和体重资料为例计算判定系数(r2) 二、回归估计标准误差 从上面分析可知:回归方程拟合效果越好,实际观测值 与回归估计值 之间的误差(残差) 就越小。 但是,度量回归估计误差,显然不能只看个别观测点,而需要考察全部实际观测数据(样本数据),这就需要计算回归估计标准误差。 利用回归方程得到的因变量 的估计值 ,总是与实际观测值有或大或小、或正或负的误差,为了从全部观测数据(样本数据)来说明误差大小的一般水平,可以对全部观测数据的残差平方进行平均,得到回归估计的方差(均方误差),用 或 表示。公式为: n-2:为自由度,n个观测数据中由于x和y两个因素的影响,有两个数据失去自由取值的机会,即失去了2个自由度,可以自由取值的数据只有n-2个 回归估计方差MSE的平方根,就是回归估计的标准差 ,也可称为回归估计的标准误差或估计标准误,其计算公式为: 一般地: Se越小,实际观测点与所拟合的样本回归方程的离差程度越小,样本回归方程具有较强的代表性。 Se越大,实际观测点与所拟合的样本回归方程的离差程度越大,样本回归方程具有较差的代表性。 例:仍以前面的10名同学的身高和体重资料为例,计算回归估计的标准误差 0 —— 95546 33032 279220 570 1670 Σ -0.291 0.552 -3.606 1.236 6.079 1.921 -8.236 -1.394 5.448 -1.709 47.
文档评论(0)