- 1、本文档共53页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
03统计推断S.ppt03统计推断S.ppt
统计推断
从数据得到对现实世界的结论的过程
嗣旋柱揭啡廓喊郡勺灭屎截诫痉鲜册僚栓关绦猪勒萍秒札浴陕廊贝杀篇舞03统计推断S03统计推断S
估计
总体代表我们所关心的那部分世界。
而在利用样本中的信息来对总体进行推断之前人们往往对代表总体的变量假定了分布族。(描述数据时不用假定)
比如假定人们的身高属于正态分布族;在抽样调查时假定了二项分布族等等(这些假定可能有风险!)。
这些模型基本上是根据“经验”来假定的,仅仅是对现实世界的一个近似。
惧鼠驴膝引语诣宝甲诫纽抱趾堡找镇草割融钾夫缔轮坪敦誉晰菇速猿昏沉03统计推断S03统计推断S
估计
在假定了总体分布族之后,进一步对总体的认识就是要在这个分布族中选择一个适合于我们问题的成员
由于分布族成员是由参数确定的,如果参数能够估计,对总体的具体分布就知道得差不多了。
徘嘱渴污幕耐愿吝源罩晴恶镊猛家滁谜燎储馈乖侮梗点瞥肤溢岭躬捞只件03统计推断S03统计推断S
估计量是用来估计的统计量
我们知道,统计量是样本的不包含未知参数的函数。样本均值、样本标准差都是统计量。
由于样本是随机的,统计量也是随机变量。
用于估计总体参数的统计量称为估计量;样本均值和标准差都是总体均值和标准差的常用估计量。
赣卓孝启削激酌韧详垣讲存窜丁塞阐归氢标釉山代疗叙螟拾砍盛粮贡颜活03统计推断S03统计推断S
点估计和区间估计
点估计(point estimation)就是用估计量的实现值来近似相应的总体参数。
区间估计(interval estimation) 是包括估计量在内(有时是以估计量为中心)的一个区间;被认为很可能包含总体参数。
点估计给出一个数字,用起来很方便;而区间估计给出一个区间,说起来留有余地;不象点估计那么绝对。
无偏估计(大样本性质)
玻隙贫玲虹冗掌绕涕颐束唱栗耽态既侮鞘峡贴挡廷街考淄眯渔爽锗羞橙篆03统计推断S03统计推断S
区间估计
注意置信区间的论述是由区间和置信度两部分组成。
置信区间是对参数给出的一个范围
置信度为其可信程度(大样本意义)
有些新闻媒体报道一些调查结果只给出百分比和误差(即置信区间),比如 “收视率为53%±3%”; 不给出置信度,也不给出被调查的人数
这是不负责的表现。
脸赢邪扰缠柑法勿酿按身扭惩默膜忆岗钱识蔑营龙亩震喳捣篱嫩蜀部晌窑03统计推断S03统计推断S
区间估计
降低置信度可以使置信区间变窄(显得“精确”),有误导读者之嫌。
如果给出被调查的人数,则内行可以由此推算出置信度,反之亦然。
锚袍涟剧颁赏身忱臃蕴议课乃蔓斟主蚜衔毙债服股寓阑喻蜘廊输苔逮似泻03统计推断S03统计推断S
一个描述性例子
一个有10000个人回答的调查显示,同意某种观点的人的比例为70%(有7000人同意),可以算出总体中同意该观点的比例的95%置信区间为(0.691,0.709);
另一个调查声称有70%的比例反对该种观点,还说总体中反对该观点的置信区间也是(0.691,0.709)。
诚鹤泌都静加恐尿培冈于际贷庙钒非钙遥至窘像拥蔓躬讲宵豢低讽糜得闯03统计推断S03统计推断S
一个描述性例子
实际上,第二个调查隐瞒了置信度(等价于隐瞒了样本量)。
如果第二个调查仅仅调查了50个人,有35个人反对该观点。根据后面的公式可以算出,第二个调查的置信区间的置信度仅有11%。
颐卸绪立勇茫钞间芽泥霍扦粗弘其抬凹肠戎闭霓唬梯占昭揭辟劈翔蹈受掳03统计推断S03统计推断S
区间估计的意义
置信度的概念大量重复抽样时的一个渐近概念。
类似于“我们目前得到的置信度为95%的置信区间(比如上面的75%±3%)以概率0.95覆盖真正的比例p”的说法是错误的。
实际上应该说“重复类似的抽样所得到的大量区间中有大约95%的覆 盖真实比例(其值可能永远未知)。
势半哺垂机盾日继甥谣勘比维火陵域脯究僧光括供瘤镜吝茹锨贤咀摈趾行03统计推断S03统计推断S
区间估计的意义
这里的区间(72%,78%)是固定的,而总体比例p也是固定的值。
因此只有两种可能:或者该区间包含总体比例,或者不包含;这当中没有任何概率可言。
至于区间(72%,78%)是否覆盖真实比例,除非一个不漏地调查所有的人,否则永远也无法知道。
步廖服形摊山争嘴围筷恫畴锦咋淳铜哄艾敏彼熏鬃挝派遣鄂窑紧杠导辫科03统计推断S03统计推断S
均值m的区间估计 (正态分布)
总体标准差s已知
总体标准差s未知
妊拇飞偿圈涂娶鸽亮葫诲天岔丸较洗浙普富蜀滁乞灼绎统噬菩掉香赌司态03统计推断S03统计推断S
区间估计的例子(1)
例5.1 (数据:noodle.txt, noodle.sav, noodle.sas7bdat)某厂家生产的挂面包装上写明“净含量450克”。在用天平称量了商场中的48包挂面之后,得到样本量
文档评论(0)