初级统计学第六章 估计与样本容量.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6章 估计与样本容量 6.1 概述 这一章我们介绍估计下列总体参数数值的方法:总体均值、比例和方差。我们还讲述确定这些参数估计所需要的样本容量方法。 6.2 估计总体均值:大样本 这一节的主要目标:已知一个集合中样本数据多于30个,讨论总体均值μ的估计值。 假设 1.n30(样本中的数据超过30个)。 2.样本是一个简单随机样本(相同容量的所有样本被选出的可能性相同)。 不仔细收集的数据绝对是毫无价值的,即使样本很大。 这一节中的方法假设,那些样本之间的差异是由于可能的随机波动造成的,而不是因为一些不合理的抽样方法。 定义 估计量(estimator)是指使用样本数据来估计总体参数的公式或过程。 估计值(estimate)是指用来近似总体参数的特定数值或数值的范围。 点估计值(point estimate)是用来近似总体参数的一个数值(或点)。 样本均值x是总体均值μ的最优点估计值。 虽然我们可以使用其他统计量,例如样本中位数、中列数或众数作为总体均值μ的估计值,但研究显示,样本均值x通常会特供最优的估计值,原因有两点。 第一,对于很多总体来说,样本均值x的分布比其他样本统计量的分布有更好的一致性。第二,对于所有的总体,样本均值x是总体均值μ的一个无偏估计量,这意味着样本均值分布的中心趋近于总体均值μ的中心。 我们为什么需要置信区间? 置信区间或区间估计是由一个数值范围(或一个区间)构成的,而不是仅由一个点构成的。 定义 置信区间(或区间估计)是指用来估计总体参数真实值的一个数据范围(或一个区间)。 一个置信区间和一个置信度相联系,例如0.95(或95%)。置信度会告诉我们,有百分之多少的时间,置信区间真的包含了总体参数,这里假设这个估计过程可以重复很多次。在置信度的定义中,用α(希腊字母阿尔法的小写)表示一个概率或面积。α的值是置信度的补。当置信度为0.95(95%)时,α=0.05。当置信度为0.99(99%)时,α=0.01。 定义 置信度是指概率1-α(通常表示为等价的百分数),它是置信区间实际包含总体参数的时间的相对频数,这里假设估计过程可以重复很多次。(置信度还称作置信水平,或置信系数。) 置信度的最普遍的选择有90%(即α=0.10),95%(即α=0.05)和99%(即α=0.01)。选择95%是最普遍的,因为它在精确性(反应在置信区间的宽度上)和可靠性之间取得了很好的平衡(由置信度来表达)。 例子:总体均值μ的0.95(或95%)置信度下的置信区间为98.08℉μ98.32℉。 解释置信区间 以98.08℉μ98.32℉为例。正确的解释:我们有95%的把握从98.08到98.32这个区间实际包含了μ的真实值。错误的解释:μ的真实值有95%的可能性将位于98.08到98.32之间。 临界值 构建一个置信区间的必要条件是,我们找到了一个能够用来区分可能发生的样本统计量和不太可能发生的样本统计量的标准z值。这个z值称为临界值,它基于如下的观察资料。(269页图6-2) 1.由中心极限定理我们知道,样本均值趋于正态分布,如图6-2所示。 2.样本均值落在图6-2中深色尾部区域之一的可能性相当小(用α表示这个概率 3.将每一个深色阴影的尾部区域的面积用α2表示,我们看出,样本均值将落在这两个尾部区域中任何一个区域的总概率为α 4.根据互补法则,样本均值将落在图6-2中浅色阴影区域中的概率为1- α。 5.将右尾的区域分割出来的z值一般用zα2表示 临界值符号 zα2是位于垂直边界线上正的z值,这个边界线将标准正态分布右尾α2的面积分割出来。下标α2只是一个简单的提示,表示将标准正态分布右尾 定义 临界值是指位于将可能发生的样本统计量和不太可能发生的样本统计量分开的边界线上的数值。数字zα2是一个临界值,这个z值的性质是,它将标准正态分布右尾 例 临界值 计算对应于95%置信度的临界值z 解答 95%的置信水平对应于α=0.05.见图6-3,图中显示,每一个深色阴影尾部的面积都是α2=0.025.注意到它左边的区域(以均值z=0为边界)面积为0.5-0.025,或0.475,我们算出zα 常见的临界值 置信度 α 临界值,z 90% 0.10 1.645 95% 0.05 1.96 99% 0.01 2.575 误差限 当用一个简单随机样本的数据估计一个总体均值μ时,误差限是指观测的样本均值x和总体均值μ的真实值的最大可能(概率是1-α)差异,用E表示。误差限也称作估计值的最大误差,它可以用临界值乘以样本均值的标准差来算出。 E= zα2?σ 根据上面的公式,计算误差限E需要知道总体的标准差σ,但在实际中,当总体均值μ未知时,我们很少知道σ。一般来说,下面的计算方法比较实用。 σ未知时E的计算 如果n30,

文档评论(0)

22255990 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档