网站大量收购独家精品文档,联系QQ:2885784924

应用统计学05-回归分析.ppt

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用统计学05-回归分析.ppt

第5章 回归分析 第1节 一元线性回归原理 第2节 回归模型的检验 第3节 回归分析例 第1节 一元线性回归原理 回归的目的 两个总体间的关系 没有本质联系,例:小孩的身高与小树的高度 有本质联系,例:学习时间与成绩 本质联系与随机因素 两个总体或现象不是孤立存在的,两者之间的关系必然混有很多其他因素 所以,要用函数来表达两者的本质联系,必须加入一个随机变量,代表其他所有有关的随机因素(包括测量误差) 回归的目的 了解现象间的本质联系 通过已知的现象来了解未知的现象 回归的总体模型 总体模型(population model) 描述因变量(dependent variable)和自变量(explanatory variables)及误差项(disturbance)间关系的函数式 模型描述的是总体及总体间的关系 Y、 X 、ε 均为描述总体的随机变量,服从未知的分布,其中误差ε代表除 X 外所有影响Y的因素 α、β 是模型的参数,反映 X 总体与 Y 总体间的本质联系,是一个客观存在的、固定的、但不可直接观察的数值 回归的目的就是利用样本推断参数的可能取值情况 回归的样本模型 样本模型(sample model) 从总体 X 和总体 Y 同时采样,获得 n 对随机变量(Yi, Xi),其值(yi, xi)构成如下数据方程组 ei 为残差,含第i 次观察的误差及其他随机因素,独立同分布 a、b分别是对总体参数α、β的估计值(estimate) 参数与参数的估计值 参数 反映总体间的本质联系,是一个客观存在的、固定的、不可观察的数值 估计值 是基于样本计算的、用来描述参数的统计量,是随机变量,随样本不同而变化 因为参数不可观察,所以用估计值来估计参数 例 估计值的误差 估计值的误差用其标准差来衡量 回归分析要求估计值的标准差要尽量小 最小二乘法求估计值 最小二乘法(OLS) 求出的估计值可以使样本方程中的残差平方和最小 简单例:分析大学生的生活费如何受年级影响 随机选择3个学生,得年级为1、2、3,月生活费分别是1、2、2千元 回归的估计方程 估计方程 将参数的估计值带入样本方程,忽略残差,记为 其中 为拟合值(预测值) 生活费例: 估计方程的斜率系数b 斜率系数表示 X 变化一个 单位, Y 变化 b 个单位 用估计方程求拟合值 例:4年级的生活费为 回归的残差 残差(residual) Y 的样本值与拟合值的差 是Y 的变化中,模型没有 说明的部分 残差越大,模型的拟合度 越差 例: 求第2个观察值的残差 最小二乘法进行估计的一般形式 模型及样本 从总体模型 Y =α+βX+ε 随机采样,得 n 对随机变量 ( Yi , Xi ) 构成的样本,样本的观察值是( yi , xi ) 最小二乘法估计结果 最小二乘法中的两个重要公式 回归估计值的误差 生活费例续 前述回归的样本:随机选择3个学生,年级 X为1、2、3,月生活费 Y 分别是1、2、2千元,估计方程为 年级增加1级,生活费增加500元 样本变化 如果加入1个4年级学生,且其当月的生活费为4千元,用最小二乘法可得估计方程 年级增加1级,生活费增加900元 回归模型的概率分布 总体模型的概率分布 给定 X = x ,设ε的条件分布为正态 N(0, σ2) 则因变量Y 的条件分布为正态 N(α+βx, σ2) 样本模型的概率分布 从上述条件分布中随机采样n对随机变量(Yi, Xi) ,设观察值 x ={ x1,…, xn}, y ={ y1,…, yn}, 则样本的条件分布 附:回归的极大似然估计(mle) 回归的似然函数(likelihood function) 将前述样本的条件分布视为参数α、β的函数,则称为回归的似然函数 条件分布的值相当于获得该组样本的“概率” 极大似然估计(maximum likelihood estimation) 使上述“概率”最大的α、β值就是其估计值 系数估计值的分布:斜率估计值 斜率系数估计值 b 是一个随机变量 在样本的n对随机变量(Yi, Xi)中,将Xi 视为给定(等于xi),将 Yi 视为来自总体 Y 的随机变量 Y 服从正态分布N(α+βx, σ2),所以Yi 服从正态分布N(α+βxi, σ2) 则斜率估计值 b 是随机变量Yi 的线性函数,也服从正态分布 斜率系数估计值 b 的期望值 斜率系数估计值 b 的方差 所以,斜率系数估计值 b 的分布: 用严格的条件分布表示: b 的分布例 生活费续 3个学生,年级 X 为1、2、3,月生活费Y 分别是1、2、2千元,求斜率估计值 b 的分布,增加1个

文档评论(0)

heroliuguan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档