扇贝抽样案例分析.docxVIP

下载本文档

37
0
约3.98千字
约 7页
2021-01-18 发布于贵州
举报
版权申诉

扇贝抽样案例分析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

扇贝抽样案例——统计方法的误区 Arnold Bennett 是美国 MIT 斯隆商学院的一名教授，在杂志Interfaces （1995 年 3 月）中描述了最近他作为统计学“专家”提供相关服务的一个法律案例。这个案例涉及一艘远离新英格兰海岸捕捞扇贝的渔船。为了保护幼扇贝免遭捕捞，美国渔业和野生动物保护机构规定“每个扇贝肉的重量至少1/36 磅才可以捕捞”。这艘船被指控违反了这个重量标准。Bennett 教授在文章中描述：这艘船抵达马萨诸塞州的一个港口时装有 11000 袋扇贝，港务人员随机抽选了其中的18 袋来检查。港务人员从每一个袋中随机取出一满勺扇贝，然后算出每个扇贝肉的平均重量。港务人员根据 18 袋的结果估计这艘船的每个扇贝肉的平均重量为 1/39 磅，低于标准，于是立即没收了捕获的95%，后来进行了拍卖。船主不服，对联邦政府提起诉讼，认为自己的捕捞符合标准，认为只选了18 袋，不足以代表全体。律师问Bennett 教授的问题之一就是：“能够从一个容量18 的样本中得到所有扇贝的平均重量的可靠估计吗？” 于是 Bennett 教授进行了分析： Bennett 教授把被抽样的18 袋的每袋的平均重量按照1/36 磅为1的情况作了比较，0.93 就是比 1/36 磅轻，1.14 就代表比1/36 磅重，数量低于1 的表明是不符合标准的。请看下面的数据，只有两袋超过了 1/36 磅，其他都没有到“1，”都不符合标准。 0.93 0.88 0.85 0.91 0.91 0.84 0.90 0.98 0.88 0.89 0.98 0.87 0.91 0.92 0.99 1.14 1.06 0.93 那么正如律师所问，从11000 袋中只抽出 18 袋作为样本合不合理呢？结论是不合理：仅用18 袋作样本太小了，至少应该在30 以上，才能作为推断的基本证据，否则误差很大。当然抽样中也并不是越大越好，只要样本的抽样方法是科学的，适当的样本便是好的。现在我把数据还原： 0.0258 0.0244 0.0236 0.0253 0.0253 0.0233 0.0250 0.0272 0.0244 0.0247 0.0272 0.0242 0.0253 0.0256 0.0275 0.0317 0.0294 0.0258 经过我的计算，样本均值为 0.0259 ，样本方差0.0000043777 ，总体均值在95%置信度下的置信区间为【0.0258791537 ，0.0258801055 】，这个置信区间的长度非常短，原因就是因为样本方差过小；即便是我们把置信度提高为 99.9% ，置信区间为【0.0258788307 ，0.0258804286 】，其长度依然非常短。然而，置信区间的长度短，正表明了精确性。注意我要说的“误区”，不在于 Bennett 教授指出的样本量过小从而抽样结论不可靠的误区（袁卫老师也这样认为），上面计算的数据表明，实际上精确度是非常之高的，精确度高理所当然是可靠的！我要提出我的一个疑问，如果没错的话，那么就是大多数研究抽样问题的人的一个误区——总认为样本量小是导致误差大的主要原因；我认为我们的理解走错了方向。本案例的精度从何而来？答曰来自于置信区间，而置信区间又直接来自于样本均值的方差，所以我们从样本均值的方差公式来看这个问题，一切自然明了：显然，样本均值的方差不仅受样本量n 影响，而且受总体方差影响（样本方差是它的无偏估计），当样本方差非常小的时候，n 对于估计精度能起多大作用呢？例如本例，样本方差极其小，此时 n 根本不起多大作用；或者，若n 大了，样本方差有可能更大，于是可能导致精确度反而降低。由此看来，样本方差对于精度的影响同样是非常大的！我上面这段话其实也是看似有理，没有说到本质问题上。为什么样本量小就会导致代表性不够、精度低呢？按常理想想，确实是这个道理，但是（我要说的误区所在）我们的解释往往停留在样本均值的方差公式前面的那个系数(1-f)/n 上，如果n 小，那么这个系数就会大，导致方差大，这个解释是不太合理的（虽然有一定道理），上面已经作出了初步说明，下面我说说我认为是本质的看法：其实，可能多数人都忽略了一种习以为常的替代——用无偏估计值替代真值。影响样本代表性以及精度的真正原因应该在这个替代上！E(s2)=S2 注意，无偏估计并不一定等于真值的！而通常由于无偏估计的良好统计学性质，我们就把它当作真值使用了；用样本量 n 很小的样本求出来的 s2 与n 很大的样本求出来的s2，哪个对 S2 更具有代表性？若n 太小，当然感觉心里不踏实。试想，若抽出所有的样本点，那么样本方差就直接等于总体方差了；若抽取少数一两个样本点，代表性当然差，误差当然大！真正的代表性与误差的根源，我