统计学概念及方法-第6章.pptVIP

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计学概念及方法-第6章

第六章 做出结论:估计 数学与信息科学学院 王 坤 TELfellowang@163.com 统计推断 总体是由总体分布来刻画的。在实际问题中,我们需要通过样本来估计总体分布的类型和参数。这就是所谓统计推断研究的问题。 统计推断包括参数估计和假设检验。 例如,假设某城市人均年收入服从正态分布N(μ,σ2),但参数μ,σ2的具体取值并不知道,需要通过样本来估计。 根据样本来估计总体分布所包含的未知参数,称为参数估计。 参数估计的两种形式:点估计和区间估计。 6.1样本统计量和总体参数 在统计中,我们把所研究对象的全体元素组成的集合称为母体或总体。母体中每一个元素称为个体。 总体依其 包含的个体总数分为有限总体和无限总体。 总体中抽取出来的一部分个体的集合称为子样或者样本。 统计量就是根据分布或数据计算出来的一个量。 常用的样本统计量是样本均值、样本百分比P和样本标准差s。通常用英文字母标记样本统计量。 总体参数通常包括总体均值μ、总体百分比Π和总体标准差σ。通常用希腊字母标记总体样本量。 6.2点估计 点估计是一个用来估计总体参数的数。 例如 假设你要研究平均一个大学生月消费情况,得到的结果有以下两种:“700元”或者“620元到800元之间”。这两种结果代表了估计总体参数的两种不同方式。最简单的是点估计,像“700元”这个结果就是一个点估计了。 “620元到800元之间”是一个区间估计。 常用的点估计方法有矩估计、极大似然估计等。 由于一个来自样本的特别的估计量绝不会精确地等于总体参数的真值,所以问某一个值是否为好的估计值是没有意义的,而可以问的是计算估计值的方法是不是一个好方法。 一个好的估计方法可以这样被定义:如果在无数个样本上应用该估计方法,得到的样本统计量估计值的均值等于总体参数的均值(无偏估计)。 一般说来,样本均值是总体均值的一个好的估计(无偏估计),比用样本中位数估计总体均值要好。 例 德军有多少坦克? 第二次世界大战期间,盟军非常想知道德军总共制造了多少辆坦克。德军制造坦克时是墨守成规的,他们把坦克从1开始进行了连续的编号。战争中,盟军缴获了一些敌军坦克,并记录了它们的生产编号。那么,怎样用这些坦克编号来估计坦克总数呢? 这里,总体参数是未知的生产出的坦克总数N,而缴获的坦克编号是样本。 方法1:先找到被缴获坦克编号的平均值,并认为这个值是全部编号的重点。因此样本均值乘以2就是总数的一个估计。这种估计N的缺点是不能保证均值的2倍一定大于记录中的最大编号。 方法2:用观测到的最大编号乘以因子1+1/n,其中n是被缴获坦克个数。例如,假设俘获了10辆坦克,其中最大编号是50,那么坦克总数的一个估计是(1+1/10)×50=55。这种方法的确用于二战中。从战后发现的德军记录看,盟军的估计值非常接近所生产的坦克的真实值。 想一想,这个例子中,对战争、坦克的部署及俘获作了哪些假设? 这些坦克必须随机地分布于各个战场并随机地被俘获。 6.3区间估计 由于无法把握点估计与总体参数实际值之间的差距,为了解决这个问题,统计学家提出了区间估计。 区间估计又称置信区间,是用来估计参数的取值范围的。 一个总体参数的置信区间是用一个样本统计量加、减抽样误差得到的: 统计量-抽样误差 到 统计量+抽样误差 例如 假设在一群人中,相信中国产品质量好的人占58%,抽样误差为±3%。则总体百分点的置信区间为: 58-3 到 58+3 如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%,60%),那么他的真实支持率有百分之九十五的机率落在百分之五十和百分之六十之间,因此他的真实支持率不足一半的可能性小于百分之五。 因为统计学家有某种程度的信心认为这个区间会包含真正的固定的参数值,所以给它取名为置信区间。 如果我们收集了许多不同的样本,并对每个样本都构造了一个置信区间。这些置信区间有足够的宽度使他们中的95%包含了总体百分点的真值,而5%没包含,则95%这个值就称为置信水平。 如果用 某种方法构造的所有区间中有95%的区间包含真值,5%的区间不包含真值,那么这些用该方法构造的区间都叫做置信水平为95%的置信区间。 置信区间, 它由奈曼(Neymann)于1934年提出的 。 总体百分比的置信区间 从一个大的总体抽取一个由n个观测值组成的随机样本,并用P来标记样本百分比,那么总体百分比π的一个95%置信区间为: 到 一个快速计算95%置信区间的近似方法是令P=50,同时四舍五入1.96到2,得到置信区间:

文档评论(0)

ldj215323 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档