扇贝抽样案例分析.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
扇贝抽样案例——统计方法的误区 Arnold Bennett 是美国 MIT 斯隆商学院的一名教授,在杂志Interfaces (1995 年 3 月)中描述了最近他作为统计学“专家”提供相关服务的一个法律案例。这个案例涉及一艘远离新英格兰海岸捕捞扇贝的渔船。 为了保护幼扇贝免遭捕捞,美国渔业和野生动物保护机构规定“每个扇贝肉的重量至少1/36 磅才可以捕捞”。这艘船被指控违反了这个重量标准。Bennett 教授在文章中描述: 这艘船抵达马萨诸塞州的一个港口时装有 11000 袋扇贝,港务人员随机抽选了其中的18 袋来检查。港务人员从每一个袋中随机取出一满勺扇贝,然后算出每个扇贝肉的平均重量。港务人员根据 18 袋的结果估计这艘船的每个扇贝肉的平均重量为 1/39 磅,低于标准,于是立即没收了捕获的95%,后来进行了拍卖。 船主不服,对联邦政府提起诉讼,认为自己的捕捞符合标准,认为只选了18 袋,不足以代表全体。律师问Bennett 教授的问题之一就是:“能够从一个容量18 的样本中得到所有扇贝的平均重量的可靠估计吗?” 于是 Bennett 教授进行了分析: Bennett 教授把被抽样的18 袋的每袋的平均重量按照1/36 磅为1的情况作了比较,0.93 就是比 1/36 磅轻,1.14 就代表比1/36 磅重,数量低于1 的表明是不符合标准的。 请看下面的数据,只有两袋超过了 1/36 磅,其他都没有到“1,”都不符合标准。 0.93 0.88 0.85 0.91 0.91 0.84 0.90 0.98 0.88 0.89 0.98 0.87 0.91 0.92 0.99 1.14 1.06 0.93 那么正如律师所问,从11000 袋中只抽出 18 袋作为样本合不合理呢? 结论是不合理:仅用18 袋作样本太小了,至少应该在30 以上,才能作为推断的基本证据,否则误差很大。当然抽样中也并不是越大越好,只要样本的抽样方法是科学的,适当的样本便是好的。 现在我把数据还原: 0.0258 0.0244 0.0236 0.0253 0.0253 0.0233 0.0250 0.0272 0.0244 0.0247 0.0272 0.0242 0.0253 0.0256 0.0275 0.0317 0.0294 0.0258 经过我的计算,样本均值为 0.0259 ,样本方差0.0000043777 ,总体均值在95%置信度下的置信区间为【0.0258791537 ,0.0258801055 】,这个置信区间的长度非常短,原因就是因为样本方差过小;即便是我们把置信度提高为 99.9% ,置信区间为【0.0258788307 ,0.0258804286 】,其长度依然非常短。然而,置信区间的长度短,正表明了精确性。 注意我要说的“误区”,不在于 Bennett 教授指出的样本量过小从而抽样结论不可靠的误区(袁卫老师也这样认为),上面计算的数据表明,实际上精确度是非常之高的,精确度高理所当然是可靠的!我要提出我的一个疑问,如果没错的话,那么就是大多数研究抽样问题的人的一个误区——总认为样本量小是导致误差大的主要原因;我认为我们的理解走错了方向。 本案例的精度从何而来?答曰来自于置信区间,而置信区间又直接来自于样本均值的方差,所以我们从样本均值的方差公式来看这个问题,一切自然明了: 显然,样本均值的方差不仅受样本量n 影响,而且受总体方差影响(样本方差是它的无偏估计),当样本方差非常小的时候,n 对于估计精度能起多大作用呢?例如本例,样本方差极其小,此时 n 根本不起多大作用;或者,若n 大了,样本方差有可能更大,于是可能导致精确度反而降低。由此看来,样本方差对于精度的影响同样是非常大的! 我上面这段话其实也是看似有理,没有说到本质问题上。为什么样本量小就会导致代表性不够、精度低呢?按常理想想,确实是这个道理,但是(我要说的误区所在)我们的解释往往停留在样本均值的方差公式前面的那个系数(1-f)/n 上,如果n 小,那么这个系数就会大,导致方差大,这个解释是不太合理的(虽然有一定道理),上面已经作出了初步说明,下面我说说我认为是本质的看法: 其实,可能多数人都忽略了一种习以为常的替代——用无偏估计值替代真值。影响样本代表性以及精度的真正原因应该在这个替代上!E(s2)=S2 注意,无偏估计并不一定等于真值的!而通常由于无偏估计的良好统计学性质,我们就把它当作真值使用了;用样本量 n 很小的样本求出来的 s2 与n 很大的样本求出来的s2,哪个对 S2 更具有代表性?若n 太小,当然感觉心里不踏实。试想,若抽出所有的样本点,那么样本方差就直接等于总体方差了;若抽取少数一两个样本点,代表性当然差,误差当然大! 真正的代表性与误差的根源,我

文档评论(0)

Sigh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档