- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计案例-独立性检验
统计案例;第二章 统计(必修3)知识结构;第三章 概率(必修3);第二章 概率(选修2-3);3.1 独立性检验;我们经常听到这些说法:
吸烟对患肺癌有影响;
数学好的人物理一般也很好;
性别与是否喜欢数学课程之间有关系;
人的血型会决定人的性格;
星座与人的命运之间有某种联系;
这些说法都有道理吗?;例1;这个例子中给出的表格称为2×2列联表,意思是问题中要考虑50岁以上的人的两种状态:是否吸烟,是否患慢性气管炎;每种状态又分两种情况:吸烟,不吸烟以及患慢性气管炎,未患慢性气管炎
表中排成两行两列的数据是调查得来的结果,希望根据这4个数据来检验上述两种状态是否有关
这一检验问题就称为2×2列联表的独立性检验;为了把问题讨论清楚,并便于向一般情况推广,我们用字母来代替2×2列联表中的事件和数据,得到一张用字母来表示的2×2列联表:;(1)首先,当吸烟(A)与患慢性气管炎(B)无关时,用概率方法进行推理,看看会出现什么结果
事件A与B无关什么意思?
此时应该有P(AB)=P(A)P(B)成立
我们用字母H0表示上式,即H0: P(AB)=P(A)P(B),并称之为统计假设;当H0成立时,下面的三个式子也都成立:
根据概率的统计定义,上面提到的众多事件的概率都可以用相应的频率来估计,例如:;2013-5-30;2013-5-30;2013-5-30;(2)上面的表达式(1)就是统计中非常有用的卡方统计量,它可以化简为
用它的大小可以决定是否拒绝原来的统计假设H0
如果算出的卡方值较大,就拒绝H0,也就是拒绝“事件A与B无关”,从而就认为它们是有关的了
;两个临界值:3.841与6.635
经过对卡方统计量分布的研究,已经得到了这两个临界值
当卡方大于3.841时,有95%的把握说事件A与B有关;当卡方大于6.635时,有99%的把握说事件A与B有关,当卡方≤3.841时,认为事件A与B是无关的;;对于例1,最理想的解决办法是向所有50岁以上的人做调查,然后对得到的数据进行统计处理,但这花费的代价太大,实际上是行不通的
339个人相对于全体50岁以上的人,只是一个小部分
现在我们用部分对全体作推断,推断可能正确,也可能错误;例如我们知道,不少中老年烟民的身体很好,没有患慢性气管炎;而又有很多从不吸烟的中老年人体质很差,患有慢性气管炎;我们有95%的把握说事件A与B有关,是指推断犯错误的可能性为5%,这也常常说成是“以95%的概率”,其含义是一样的
统计的基本思维模式是归纳的,它的特征之一是通过部分数据来推测全体数据的性质
因此,统计推断是可能犯错误的
我们从数据上体现的只是统计上的关系,而不是因果关系;例1的解答:
;注意:
50岁以上吸烟的人一定患慢性气管炎吗?
是不是表示得病概率是百分之九十九?
使用卡方统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5,为此,在选取样本的容量时一定要注意这一点;例2.在500人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示。问:该种血清能否起到预防感冒的作用?;P(χ≥x0);P(χ≥x0);例5;第5个零件的尺寸落在控制下限以下,表明小概率事件竟然发生了,根据实际推断原理,我们有理由怀疑此时机器还在正常生产。比如,可能原料有问题,可能操作有误,可能机器出故障……此时可以停机检修和调整,以免产生大量不合格产品
假定5个零件的尺寸都落在控制上限与控制下限之间,则表明机器处于正常工??状态,可以继续生产下去;例6;(1)作统计假设:商店里有假烟
(2)在上述假设成立的条件下,计算该顾客买到全部真烟的概率
0.039
(3)我们以概率0.961认为商店里没有假烟
当然,如果顾客买的烟中发现有假烟,自然就认为假设成立,即商店里有假烟;思考
文档评论(0)