- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3.2独立性检验的基本思想及其初步应用(修改)概要
* 3.2 独立性检验的基本思想 及其初步应用 我们经常听到这些说法: 吸烟对患肺癌有影响; 数学好的人物理一般也很好; 是否喜欢数学课程与性别之间有关系; 人的血型会决定人的性格; 星座与人的命运之间有某种联系. 这些说法都有道理吗? 探究1 独立性检验的基本思想 对于性别变量,其取值为男和女两种.这种变量 的不同“值”表示个体所属的不同类别,像这样的变 量称为 . 分类变量在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等. 分类变量 x是变量吗? y表示一年四季,则y的取值有哪些? y是变量吗? x表示性别,则x的取值有哪些? (2)分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义,如用“0”表示“男”,用“1”表示“女”. 对分类变量的理解 (1)分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级等. 不患肺癌 患肺癌 总计 不吸烟 7 775 42 7 817 吸烟 2 099 49 2 148 总计 9 874 91 9 965 问题:为了研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9 965人,得到如下结果: 3-7吸烟与患肺癌列联表(单位:人) 两个分类变量的频数表,称为列联表 思考1:你如何由列联表中的数据判断吸烟是否对肺癌有影响?能不能从患肺癌的人数来判断?应该从什么量来判断? 不患肺癌 患肺癌 总计 不吸烟 7 775 42 7 817 吸烟 2 099 49 2 148 总计 9 874 91 9 965 问题:为了研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9 965人,得到如下结果: 3-7吸烟与患肺癌列联表(单位:人) 在吸烟者中患肺癌的比重是_______. 2.28% 在不吸烟者中患肺癌的比重是_______, 0.54% 由计算结果,你会做出怎样的判断? 你的判断一定正确吗?能知道判断犯错误的概率是多少吗? 等高条形图 患肺癌 比例 不患肺 癌比例 思考2:除了用比例来判断吸烟是否对患肺癌有影响外?还有其它方法来判断吗? (1)观察等高条形图,你得到什么结论? (2)你的判断一定正确吗?能知道判断的正确率是多少吗? 思考3:通过分析数据和图形,我们得到的直观印象是“吸烟和患肺癌有关”.但是我们不知道我们判断的正确率有多大,那么我们是否能够以一定的把握认为“吸烟与患肺癌有关”呢? 为了回答上述问题,我们先假设: H0:吸烟与患肺癌没有关系.用A表示不吸烟, B表示不患肺癌,则“吸烟与患肺癌没有关系”独立,即假设 H0等价于P(AB)=P(A)×P(B) . 3-8吸烟与患肺癌列联表(单位:人) 不患肺癌 患肺癌 总计 不吸烟 a b a+b 吸烟 c d c+d 总计 a+c b+d a+b+c+d 把表3-7中的数字用字母代替,得到如下用字母表示的列联表 思考4: (1)在表3-8中,事件AB发生的频数是什么? (3)事件B发生的频数是什么? (2)事件A发生的频数是什么? (4)P(AB)、P(A)、P(B)分别是什么?它们之间有什么关系? (5)|ad-bc|越小,说明什么问题?|ad-bc|越大,说明什么问题? 即(a+b+c+d)a=(a+b)(a+c) 即 为使不同的样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变量 其中n=a+b+c+d为样本容量. 思考5: (2)K2越大,说明什么问题? (1)K2越小,说明什么问题? 结论:若 H0 成立,即“吸烟与患肺癌没有关系”,则K2应该很小. 不患肺癌 患肺癌 总计 不吸烟 7 775 42 7 817 吸烟 2 099 49 2 148 总计 9 874 91 9 965 请根据表3-7中的数据,利用公式(1)计算K2的观测值 3-7吸烟与患肺癌列联表(单位:人) 思考6:这个值到底是大还是小,它能告诉我们什么呢? (2)式说明,在H0成立的情况下,K2的观测值超过 6.635 的概率非常小,近似为0.01,所以K2≥6.635是一个小概率事件,基本不发生. 思考7: (1)我们计算的K2的观测值k≈56.632 ,远远大于6.635,它发生的概率大不大?是不是一个小概率事件? (2)你觉H0成立吗? (3)你的判断会犯错误吗?犯错误的概率有多大? (4)上述的方法相比于之前讲的两种方法,它有什么优势? (5)你能总结上述检验方法及它的一般步骤吗? (5)你能总结上述检验方法及它的一般步骤吗? 结论:在上述过程中,实际
文档评论(0)