数据分析方法08 09-回归分析1交通案例-更新.pptx

数据分析方法08 09-回归分析1交通案例-更新.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
回归分析;相关分析与回归分析的区别; 一个因变量是怎样被一个或多个自变量影响的 非确定性关系;;8.2 相关分析;8.2.1 相关系数;双变量关系强度测量的主要指标;适用于两分类变量的分析;8.2.2(1)相关分析的基本操作; Bivariate相关分析步骤;8.2.2(2) 应用举例;输出结果;上节中的相关系数是研究两变量间线性相关性的,若还存在其他因素影响,就相关系数本身来讲,它未必是两变量间线性相关强弱的真实体现,往往有夸大的趋势。 例如,在研究商品的需求量和价格、消费者收入之间的线性关??时,需求量和价格之间的相关关系实际还包含了消费者收入对价格和商品需求量的影响。;偏相关分析也称净相关分析,它在控制其他变量的线性影响的条件下分析两变量间的线性关系,所采用的工具是偏相关系数。;8.2.4(1) 偏相关分析的基本操作;8.2.4(2) 应用举例;输出结果;8.3 线性回归;回归分析的一般步骤;一元线性模型: 其中x为自变量;y为因变量; 为截距,即常量; 为回归系数,表明自变量对因变量的影响程度。; 用最小二乘法求解方程中的两个参数,得到 ;多元线性回归模型;多元线性回归的估计;1. 回归方程的拟合优度 回归直线与各观测点的接近程度称为回归方程的拟合优度,即样本观测值聚集在回归线周围的紧密程度 。 1)离差平方和的分解: 建立直线回归方程可知:y的观测值的总变动可由 来反映,称为总变差。引起总变差的原因有两个:(a)由于x的取值不同,使得与x有线性关系的y值不同;(b)随机因素的影响。;总离差平方和可分解为;;2. 回归方程的拟合优度-判定系数;回归方程的显著性检验是要检验被解释变量与所有的解释变量之间的线性关系是否显著。 对于一元线性回归方程,检验统计量为: 对于多元线性回归方程,检验统计量为:;4. 回归系数的显著性检验(t检验);满足Gauss-Markov条件(即等方差与不相关假定): 正态分布假定条件: 各自变量X序列之间不相关: ;8.3.3 残差分析;因变量的异常值:超过±3 的残差对应的观测值; 自变量的异常值:远离 的是回归方程的强影响点 Cook(库克)距离 当 时,为异常值点.;绘制残差图x-e(均值为零,上下随机散落) 标准化残差的标准P-P图 标准化残差的非参数检验结果 ;1) 可通过绘制残差图检验方差的齐性。 如果残差的方差随着解释变量值(或被解释变量值)的增加呈有规律的变化趋势,则出现了异方差现象。;2) Spearman(斯皮尔曼)检验,计算残差和解释变量的等级相关系数,比较检验的p值与显著无性水平α值。 3)异方差的处理:最常用的方法是加权最小二乘法(Weighted Least Squares, WLS)。;异方差产生的原因: 1)模型中省略的不重要因素随自变量的变化而变化; 2)利用平均数作为样本数据,容易产生异方差; 3)样本观测时产生的观测误差,可能是不同时间导致观测误差不同,也可能是观测技术突然有了改进等。 异方差带来的问题: 1) 利用OLS得出的参数估计值不再具有最小方差的优势; 2) 在此估计参数下,进行回归系数检验,导致检验值高估,使某些不显著的自变量变为显著的; 3) 造成因变量的预测值精度下降,应用效果差。;DW检验用来检验残差的自相关。检验统计量为: DW=2表示无自相关,在0-2之间说明存在正自相关,在2-4之间说明存在负的自相关。一般情况下,DW值在1.5-2.5之间即可说明无自相关现象。;自相关产生的原因: 1) 经济变量的滞后性; 2) 回归模型的形式选择不合理或是遗漏了某些重要的自变量因素; 3) 经济问题中的蛛网现象; 4) 数据加工处理时进行平滑、插分、消除季节性的手段。 自相关带来的问题与异方差相同: 1) 利用OLS得出的参数估计值不再具有最小方差的优势; 2) 使某些不显著的自变量变为显著的; 3) 因变量的预测值精度下降。;SPSS 操作模块;多重共线性是指解释变量之间存在线性相关关系的现象。测度多重共线性一般有以下方式: 1) 容忍度: 其中, 是第i个解释变量与方程中其他解释变量间的复相关系数的平方,表示解释变量之间的线性相关程度。容忍度的取值范围在0-1之间,越接近0表示多重共线性越强,越接近1表示多重共线性越弱。 2) 方差膨胀因子VIF。方差膨胀因子是容忍度的倒数。VIF越大多重共线性越强,当VIF大于等于10时,说明存在严重的多重共线性。 ;3) 特征根和方差比。根据解释变量的相关系数矩阵求得的特征根中,如果最大的特征根远远大于其他特征根,则说明这些解释变

文档评论(0)

a13355589 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档