2-一元线性回归研究.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 一元线性回归模型 主要内容 一元线性回归模型 模型参数估计(最小二乘法) 样本决定系数与拟合优度检验 回归参数估计值的显著性检验 模型整体的显著性检验 一元线性回归模型预测 背景知识:两个变量的协方差 一. 一元线性回归模型的概念 1.回归模型 确定关系 (函数关系) 相关关系 (随机关系) 因果关系 随机项μ的构成 模型中省略的变量 随机因素 测量误差 确定数学模型形式的误差 2.线性回归模型 模型的基本形式 Y = β0+β1X1+β2X2+β3X3+………+βiXi+μi 基本假设 解释变量 Xi 是确定性变量,不是随机变量;解释变量之间互不相关; 随机误差项具有0均值和同方差; 随机误差项不存在序列相关关系; 随机误差项与解释变量之间不相关; 随机误差项服从0均值、同方差的正态分布。 3.一元线形回归模型 只含有一个解释变量的线形回归模型 满足基本假设: 1 E(μi)= 0 2 Var (μi) = σ2μ 3 Cov (μi,μJ)= 0 4 Cov (Xi,μi)= 0 i = 1,2,3,……,n ; j= 1,2,3,……,n i≠j 异方差 序列自相关 二. 一元线性回归模型的参数估计 (1)散点图 变量Y与变量X的散点图 (2)回归线 (3)估计量(Estimator) 一个估计量又称统计量,是指一个规则、公式或方法,是用已知的样本所提供的信息去估计总体参数。 统计量是样本的函数,因为抽样是随机的,估计量具有随机性 对一次已经实现的抽样,估计量又是确定的。 在应用中,由具体样本算出的估计量的数值称为估计值。 2.最小二乘法的思路(1) 为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值(n组观察值),才不至于以点概面(作到全面)。 Y与X之间是否是直线关系(用协方差或相关系数判断)?若是,可用一条直线描述它们之间的关系。 在Y与X的散点图上画出直线的方法很多。 找出一条能够最好地描述Y与X(代表所有点)之间的直线。问题是:怎样算“最好”? 最好指的是找一条直线使得所有这些点到该直线的纵向距离的和(平方和)最小。 最小二乘法的思路(2) 最小二乘法的思路(3) 纵向距离是度量实际值与拟合值是否相符的有效手段 点到直线的距离——点到直线的垂直线的长度。 横向距离——点沿(平行)X轴方向到直线的距离。 纵向距离——点沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。 实际值-拟合值=残差(剩余) 最小二乘法的思路(4) 纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以称为残差、拟合误差或剩余。 将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。拟合直线在总体上最接近实际观测点。 于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小的问题。 数学形式 最小二乘估计量 最小二乘估计量的简化形式 注意几个概念的区别 误差:即随机项 残差:观测值减去拟合值,是误差的估计值 离差:样本观测值减去样本平均值 3.回归直线的性质 4.最小二乘估计量的统计性质 线性 无偏性 有效性 (1)线性 参数估计量 , 是Yi的一个线性函数 参数估计量是一个随机变量,采用不同的参数估计方法,会构造出不同的参数估计量 参数估计值是采用样本数据计算的具体数值,不同样本会得出不同的参数估计值 (2)无偏性 指参数估计量的均值等于模型参数值,即 (3)有效性(最小方差性) 指在所有线性、无偏估计量中,该参数估计量方差最小 有效性(最小方差) OLS参数估计量的有效性指的是:在一切线性、无偏估计量中,OLS参数估计量的方差最小。 高斯-马尔柯夫定理 最小二乘估计具有线性、无偏性、有效性(合称BLUE性质) 三. 样本决定系数与拟合优度检验 拟合优度评价 由最小二乘法得出的直线能够反映这些点之间的关系吗? 对这些点之间的关系或趋势反映到了何种程度? 于是必须经过某种检验或者找出一个指标,在一定可靠程度下,根据指标值的大小,对拟合的优度进行评价。 总离差平方和的分解 总离差平方和的分解 平方和分解的意义 TSS=RSS+ESS 被解释变量Y总的变动(差异)= 解释变量X引起的变动(差异) + 除X以外的因素引起的变动(差异) 如果X引起的变动在Y的总变动中占很大比例,那么X很好地解释了Y;否则,X不能很好地解释Y。 相关系数 计算方法与样本决定系数一样 含义有所不同: 样本决定系数是判断回归方程与样本观测值拟合优度的一个数量指标,隐含的前提条件是X和Y具有因果关系 相关系数是判断两个随机变量线性相关的密切程度,

文档评论(0)

502992 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档