网站大量收购闲置独家精品文档,联系QQ:2885784924

【2017年整理】1沼肼双变量回归分析.ppt

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【2017年整理】1沼肼双变量回归分析

第一章 双变量回归分析 教师:卢时光 1. 回归分析的性质 F.加尔顿(Francis Galton)发现,虽然有一个趋势:父母高,儿女也高;父母矮,儿女也矮,但给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高。 K.皮尔逊(Karl Pearson)证实了加尔顿普遍回归定律。皮尔逊收集了1000多个家庭的身高记录。他发现对于父辈高的群体,儿辈的平均身高低于他们的父辈,而对于父辈矮的群体,儿辈的平均身高则高于他们的父辈。 用加尔顿的话来说,就是“回归到中等(regression to mediocrity)”。 1.2 回归的现代定义 回归分析是关于研究一个应变量对另一个解释变量的依赖关系,其用意在于通过后者(在重复抽样中)的已知或设定值,去估计和(或)预测前者的(总体)均值。 回到加尔顿的例子:我们关心给定父辈身高,找出儿辈平均身高的变化。值得注意的是,随着父辈身高的增加,儿辈平均身高也在增加。 1.3 统计关系和确定性关系 如上例中,我们不像经典物理学中考虑的那种变量之间的函数或确定性依赖关系。在回归分析中,我们考虑的是一类所谓统计依赖关系。在变量之间的统计关系中,我们主要处理是随机变量,也就是有着概率分布的变量。 例如,作物收成对气温、降水、阳光及施肥的依赖关系是统计性质的。这个性质的意义在于:这些解释变量固然重要,但是并不能够使农业学家准确地预测作物的收成。一则这些变量的测量是有误差的,二则还有一大堆影响到作物收成的变量,我们无法一一识别出来。 1.4 回归和因果关系 虽然回归分析是研究一个变量对另一些变量的依赖关系,但它并不一定意味着因果关系。用肯达尔和斯图亚特的话说:“一个统计关系式,无论多强也不管多么有启发性,却永远不能确立因果方面的联系,对因果关系的理念,必须来自统计学以外,最终来自这种或那种理论。” 例如在诸多有趣的经济指标中有一个“裙子长短指数”。这个指数用女性穿着裙子的长短来判断经济的好坏。当经济不好时,失业率增加,女性就业更困难,短裙看起来能年轻、活力一些,有利于寻求新的职位。但是我们不能因此得到结论:在座的女生穿着短裙是因为经济不好,或者因为在座的女生穿着短裙所以中国的经济不好。 从逻辑上说,统计关系式本身不意味着任何因果关系。 1.5 数据的性质 用于经济分析的数据有三类:时间序列、横截面数据、和混合数据。 时间序列:对一个变量在不同时期取值的一组观测结果。例如随着年份GDP的变换、上证综合指数的每日变换等等。 基于时间序列数据的计量分析,大多假定所依据的时间序列数据是平稳的(stationary)。粗略地来说,如果一组时间序列数据,它们的均值和方差在时间上没有系统的变化,就是平稳的。要记住:每当你使用时间序列数据时,你都要问一问它的平稳性如何。 横截面数据:对一个或多个变量在同一个时点上收集的数据。例如2012年9月份,全国主要30个省份的生猪的产量和价格、全国每个高校2012届大学生的就业率等等。 横截面数据也有其自身的问题,特别是异方差(heterogeneity)的问题。有的省(湖南、江西)生产巨量的生猪,而有的省(北京和广东)生产量很少。当我们的统计分析中包含有相异的单元时,我们必须考虑尺度效应,以避免把苹果和桔子混同了起来。 混合数据:兼有时间序列和横截面数据。例如人口普查数据,从1980到2012年中国人口总量变化是时间序列,而2012年不同省市人口的分布则是横截面数据。 2. 双变量回归分析 2.1 一个例子 假定一个国家人口总体由60户家庭组成,X表示家庭周可支配收入,Y表示家庭周消费支出。 现在,对于给定的X,例如X=80美元,有5个Y值:55、60、65、70和75美元。因此给定X=80得到这些消费支出中任何一个概率是1/5。用符号来表示: 对于Y的每一条件概率分布,我们能够计算出来它的均值,称为条件均值或条件期望,记做E(Y|X=Xi),并读作“在X取特定Xi值时Y的期望值”。 给定X=80,Y的期望或条件均值为: 回到散点图中,我们更清楚的发现,虽然,每个家庭的消费支出都不相同,但随着收入的增加,消费水平平均地说也在增加。 观测红色的粗圆点代表的Y的各个条件均值,这种察觉就更加的直观和形象。散点图表明,这些条件均值都落在一个有正斜率的直线上。这个直线叫做总体回归线。更简单地说,它是Y对X的回归。 在几何意义上,总体回归线就是当解释变量取给定值时,应变量的条件均和或期望的轨迹。 2.2总回归函数(PRF) 从前面的讨论中,我们清楚地看到,每一条件均值E(Y|Xi)都是Xi的一个函数,用符号来表示: 其中,f(Xi)表示解释变量Xi的某个函数(在上例中, E(Y|Xi) 是Xi的一个线性函数),我们把 称为总体回

文档评论(0)

liwenhua11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档