- 1、本文档共33页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
双变量回归的进一步讨论
第二章 双变量回归的进一步讨论 教师:卢时光 1. 正态性假设 1.1 为什么要对干扰ui的概率分布作出正态性假设? 在上一章的分析中,我们并没有对干扰ui的概率分布作出任何假设。我们对ui的描述是:它们的期望值为0,它们是不相关的,并且有着一个不变的方差。 有了这些假设,我们看到最小二乘(OLS)估计量 有着非常好的统计性质,例如它们是无偏估计的,最小方差。 如果我们的目的仅仅是做点估计,则上述假定就足够好了,但是点估计只是统计推断的一个方面,另一方面则是假设检验。 我们的目标并不仅仅是得到 ,而是要利用它对其真值 作出论断。更一般的来说,我们的目的不仅是要得到样本回归函数(SRF),而是要用它来推测总体回归函数(PRF)。 那么,我们为什么必须对干扰项ui的概率分布进行进一步的假定呢?事实上,我们在前面的分析中已经强调过,最小二乘(OLS)估计量 都是ui的线性函数,因此最小二乘(OLS)估计量 的概率分布是依赖于ui的概率分布的。 在回归分析中,人们常常愿意假设ui是遵循正态分布的,这种假设是有理由的,我们稍后来证明。 我们把假定了干扰ui符合正态分布的模型称为双变量经典正态线性回归模型(CNLRM)。 1.2 正态性假设 经典正态线性回归假定每个ui都是正态分布的,且: 顺便指出,对两个正态分布变量来说,零协方差或零相关就意味着这两个变量是互相独立的。 ui符合正态分布的解释: 1. ui代表了回归模型中未作为自变量引入的,而对因变量产生影响的其他因素的总和。我们希望这些被忽略的变量的影响是微小的,而且充其量是随机的。利用中心极限定理可以证明,如果存在大量的独立且同分布的随机变量,随着这些变量的数量的无限增大,它们的总和将趋于正态分布。 中心极限定理也说明,即便变量的个数是有限的,且不是严格独立的,它们的总和也可以看做是服从正态分布的。 正态分布的一个基本性质是:正态分布变量的任何线性函数都是正态分布的。这样最小二乘估计量 也都是正态分布的。 最后,正态分布是一种简单的,我们熟知的分布。 1.3 在正态性假设下OLS估计量的性质 在正态性假设下,OLS估计量 有如下统计性质: 1. 它们是无偏的。 2. 它们有最小方差。 3. 一致性。随样本含量无限地增大,估计量将收敛到它们的真值。 4. 是正态分布的。 5. 服从n-2个自由度的 分布。 6. 的分布独立于 。 7. 是最优无偏估计量(BLUE)。 是正态分布的 是正态分布的 1.3 与正态分布有关的一些概率分布 t分布、CHI分布和F分布与正态分布有着密切关系,在统计推断中被大量的使用。以下以定理的形式将其关系概括,证明请参阅相关文献。 2.区间估计和假设检验 2.1 区间估计 回到上一章我们的例子中,我们在最后求得边际消费倾向β2的估计值 为0.5091,这是对β2的一个点估计值。虽然大量重复抽样的结果使得估计值的均值可望等于真值(E( )= β2 ),但单独一次抽样的结果可能是相背离的。 统计学上,一个点估计的可靠性是有它的标准误来衡量的。我们不能完全信赖一个点,而需要构造一个区间,比如在点估计量的两侧各宽2或3个标准误,使得它有95% 的可能性包含真实的β2 。 我们试求两个正数δ和α, α位于0和1之间,使得随机区间 包含β2的的概率为1- α。用符号来表示: 如果这个区间存在,就称之为置信区间; 1- α称为置信系数;而α称显著性水平;置信区间的端点分别称为置信下限和置信上限。 注意: (1)上式并没有说β2落在给定区域的概率是1- α,因为β2虽然未知,但是一个确定的数,它落在固定区域的可能性只有1或者0。 (2)因为 是随机的,而置信区域是根据 来构造的,因此置信区域也是随机的。 (3)因此,我们说如果重复多次,那么从长期来看,平均的说,这些区域将有1- α次包含着参数的真值。 2.2 回归参数β1和β2的置信区域 β2的置信区域 在ui的正态假设下,OLS估计量 本身就是正态分布,因此构造一个随机变量: 这是一个标准化的正态分布变量。当δ2已知,以μ为均值的正态分布有着良好的性质:正态曲线下μ±δ之间的面积约占68%;在μ±2δ之间的面积
文档评论(0)