从数据到结论(人民大学吴喜之教授)03统计推断S.ppt

下载文档 降价啦

1
0
约7.95千字
约 56页
2019-01-19 发布于江苏
举报
版权申诉
保障服务

从数据到结论(人民大学吴喜之教授)03统计推断S.ppt

1、本文档共56页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

估计总体代表我们所关心的那部分世界。而在利用样本中的信息来对总体进行推断之前人们往往对代表总体的变量假定了分布族。(描述数据时不用假定) 比如假定人们的身高属于正态分布族；在抽样调查时假定了二项分布族等等(这些假定可能有风险!)。这些模型基本上是根据“经验”来假定的，仅仅是对现实世界的一个近似。估计在假定了总体分布族之后，进一步对总体的认识就是要在这个分布族中选择一个适合于我们问题的成员由于分布族成员是由参数确定的，如果参数能够估计，对总体的具体分布就知道得差不多了。估计量是用来估计的统计量我们知道，统计量是样本的不包含未知参数的函数。样本均值、样本标准差都是统计量。由于样本是随机的，统计量也是随机变量。? 用于估计总体参数的统计量称为估计量；样本均值和标准差都是总体均值和标准差的常用估计量。点估计和区间估计点估计(point estimation)就是用估计量的实现值来近似相应的总体参数。区间估计(interval estimation) 是包括估计量在内（有时是以估计量为中心）的一个区间；被认为很可能包含总体参数。点估计给出一个数字，用起来很方便；而区间估计给出一个区间，说起来留有余地；不象点估计那么绝对。无偏估计(大样本性质) 区间估计注意置信区间的论述是由区间和置信度两部分组成。置信区间是对参数给出的一个范围置信度为其可信程度(大样本意义) 有些新闻媒体报道一些调查结果只给出百分比和误差（即置信区间），比如 “收视率为53%±3%”; 不给出置信度，也不给出被调查的人数这是不负责的表现。区间估计降低置信度可以使置信区间变窄（显得“精确”），有误导读者之嫌。如果给出被调查的人数，则内行可以由此推算出置信度，反之亦然。一个描述性例子一个有10000个人回答的调查显示，同意某种观点的人的比例为70%（有7000人同意），可以算出总体中同意该观点的比例的95%置信区间为（0.691，0.709）；另一个调查声称有70%的比例反对该种观点，还说总体中反对该观点的置信区间也是(0.691，0.709)。? 一个描述性例子实际上，第二个调查隐瞒了置信度（等价于隐瞒了样本量）。如果第二个调查仅仅调查了50个人，有35个人反对该观点。根据后面的公式可以算出，第二个调查的置信区间的置信度仅有11%。区间估计的意义置信度的概念大量重复抽样时的一个渐近概念。类似于“我们目前得到的置信度为95%的置信区间（比如上面的75%±3%）以概率0.95覆盖真正的比例p”的说法是错误的。实际上应该说“重复类似的抽样所得到的大量区间中有大约95%的覆盖真实比例(其值可能永远未知)。区间估计的意义这里的区间（72%，78%）是固定的，而总体比例p也是固定的值。因此只有两种可能：或者该区间包含总体比例，或者不包含；这当中没有任何概率可言。至于区间（72%，78%）是否覆盖真实比例，除非一个不漏地调查所有的人，否则永远也无法知道。均值m的区间估计（正态分布）区间估计的例子（1）区间估计的例子（2）例5.2 （数据：height2.txt, height2.sav, height21.sav, height22.sas7bdat）这是两个地区大学生的高度数据；这里，我们假定身高服从正态分布。在height2.sav数据中这两个地区学生的高度分别用变量x1和x2表示。而在height21.sav数据中，它们为一个变量height，但用另一个变量group来标明它们属于哪个地区。区间估计的例子（2）（a）我们想要分别得到这两个总体均值和标准差的点估计（即样本均值和样本标准差）和各自总体均值的95%置信区间。利用height2.sav，SPSS得到：作为两个总体均值估计量的样本均值分别为170.56和165.60，而样本标准差分别为6.97857和7.55659；还得到均值的置信区间分别是(168.5767, 172.5433)及(163.4524, 167.7476)。（计算机输出很容易明白，这里不显示。） (b)求两个均值差m1-m2的点估计和95%置信区间。根据数据height2.sav，利用软件很容易得到下面结果总体比例（Bernoulli试验成功概率）p的区间估计（大总体、大样本）总体比例（Bernoulli试验成功概率）之差p1 -p2的区间估计（大样本、大总体）假设检验在假设检验中，一般要设立一个原假设；而设立该假设的动机主要是企图利用人们掌握的反映现实世界的数据来找出假设和现实的矛盾，从而否定这个假设。假设检验在多数统计教科书中（除了理论探讨之外）,假设检验都是以否定原假设为目标。如否定不了，那就说明证据