第21,22课翻译统计1107杨凯翔.doc

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
STA333 第21章 自助法求置信区间(第一部分) 21.1准备阶段:理论误差的概念 自助法的基本用法之一是对总体参数寻求置信区间,在传统的统计学中需要作假设时,一般而言的方法是固定的,但是如果我们遇到通常的假设被违背的情况时,我们会去尝试估计一些非典型参数,自主化程序可以提供给我们一个对象于参数非参数化的构建置信区间的方法。 我在上一节提到过用自助法分布估计实际的样本分布是我们在统计学中正在使用的。那么,打个比方说,我们可以使用自助分布检验正态性。如果样本分布出现正态性并且以实际参数为中心,我们可以使用自助化标准误差计算t分布置信区间。所以,得出结论我们用自助法检验样本分布中心化的表达式和拓展。关于这个结论,自助法不能显示中心化方向,但可显示误差。 所谓误差。一项估计参数是否有偏及样本分布能反映被估计的真实参数的指标,统计资料的误差表达式: 误差=样本分布均值—参数真实值 当然,我们不知道参数真实值,所以不能直接计算误差,但自助法提供允许我们检验误差的方法,观测自助化分布统计量是否中心化于原始随机样本的统计量,自助法估计误差如下: 自助法估计误差=自助化分布均值—原始数据统计量 正态分布使用样本均值的例子。众所周知,样本均值(x总体均值(来说是无偏估计,实际误差为0,举个例子,使用一些随机生成的正态分布数据检验自助法的使用。 具体步骤: 从一个均值,标准差分别为(=22, (=5的正态分布中随机生成一个n=50的样本。 计算样本均值。 在这个样本中生成1000个自助法样本,计算每个自助法样本的均值。 从这个自助法分布中求,使用前面讲的一般方法计算估计误差 运行下面程序: 运行R程序后,得到的估计误差是0.00497,。重复多做几次,观察得到的结果,由于重复取样,你会得到不同的答案,但应该都接近于0,下图告诉你原因 不知其他的统计量是否符合?让我们检验上章中西雅图房屋问题这一例子的中位数估计误差。 西雅图实际房屋价格。我们对西雅图房屋拥有权感兴趣。不巧的是,从市税务局得到的数据不能很好的区分房屋和商业使用权,由此,我们想知道房屋销售价格的中位数(记住数据在R工作区里的seattlerealestate2002中。)下面估计使用样本中位数估计中位数真实值的误差。 我得到了估计误差为-3.9995。多运行几次,你可以清楚地看到使用中位数的系统误差,样本分布低估实际总体中位数产生的误差,下图清楚地显示了,由此,一个合适的置信区间可以使用自助法来弥补估计产生的误差,不久我们就能看到。 21.2 主要自助法置信区间 在传统的(参数)统计学中,一旦你找到样本分布统计量,那么均值的置信区间也会随之确定,一旦你找到了方法,通过找到合适的样本分布中2.5%,97.5%分位点,就可以确定95%置信区间上下限,右图可以说明这点: 然后可以计算出固定的置信区间,比如(x±t0.025*s/√n。 如何找到非参数置信区间呢?当然,原理本质上相同,除非我们用自助法分布作为估计样本分布的统计量,一旦我们找到自助化分布2.5%和97.5%分位点,我们也就找到了参数95%置信区间,这个区间类型称作自助化百分比置信区间,容易用R中quantile()功能得到。 过一小会儿,建立在R上常规自助法自动计算出自助法置信区间,通过R编码,我们也来实现。 使用均值正态分布的例子,找到一个使用模拟数据的总体均值95%置信区间,下面的事情已知: 从均值(=22, 标准差(=5的正态总体中随机抽出50个观测值,找到实际均值为2,希望他在我们的置信区间中。 对于总体均值(,(x 是其无偏估计量,我们不需要担心误差影响置信区间的结果。 当正态假设出现而且我们使用的估计值无偏,就可以使用T统计量的置信区间发现自助化结果与一般参数估计结果是否一致、 以下是运行程序: 得到(19.95,22.44)作为(的95%非参数自助法置信区间,将它与来自于固定的x±t0.025*s/√n T统计量置信区间作对比,容易得到t.text(): 覆盖在R输出窗口的是95%参数置信区间的结果(19.92,22.57),可以看出参数与非参数结果是一致的。 西雅图实际房屋价格。可以找到西雅图2002年房屋销售价格中位数的95%自助化百分比置信区间。 使用这种方法,可以得到95%置信度下西雅图2002年房屋所有权销售价格中位数, 小贴士: 在最后的例子中,尝试使用t统计量及自助法找到均值95%置信区间,比较结果并得出结论。 我们可以提高置信区间的结果,如何?知道中位数是有偏的,我们的方法不能计算这些误差,下一章我们会了解到一种使用自助法估计误差的方法。 R加入了一个boot程序包可以操作许多类别的自助法问题以及自动计算自助法置信区间,下一节我会使用boot程序包重新解决西雅图房地产问题。 举例:西雅图实际房

文档评论(0)

beoes + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档