3.2独立性检的基本思想及其初步应用(学案).docVIP

  • 2
  • 0
  • 约6.71千字
  • 约 12页
  • 2017-05-15 发布于贵州
  • 举报

3.2独立性检的基本思想及其初步应用(学案).doc

3.2独立性检的基本思想及其初步应用(学案)

§3.2 独立性检验的基本思想及其初步应用 一、学习目标 1.通过典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验. 2.明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际问题. 3.了解随机变量的含义. 二、知识解析 导言:在日常生活中,我们常常关心某些事情之间是否有关系. 我们可以通过观测样本来得到初步的结论,但是样本的结论是否可靠,样本的结论是否可以推广到总体?要回答这些,就必须借助统计理论来分析,这就是我们这节课的内容和目的. 探究1: 为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了人,得到如下结果: 表1吸烟与患肺癌列联表 单位:人 不患肺癌 患肺癌 总计 不吸烟 吸烟 总计 那么吸烟是否对患肺癌有影响? 1.与列联表相关的概念 1.1变量的分类: 分类变量:变量的不同“值”表示个体所属的不同类别的变量称为分类变量. 分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级,等等. 分类变量的取值有时可用数字来表示但这时的数字除了分类以外没有其他的含义. 如用“0”表示“男”,用“1”表示“女”.探究中,患肺癌与不患肺癌,吸烟与不吸烟都是分类变量. 定量变量:定量变量的取值一定是实数,他们的取值大小有特定的含义.不同取值之间的运算也有特定的含义.例如:张明身高180cm.李立的身高175cm,说明了张明的身高比李立的身高高180175=5cm. 我们本节课主要处理的是分类变量. 1.2像表1这样列出两个分类变量的频数表,称为列联表(contingency table). 列联表是分类变量的汇总统计表(频数表). 本章我们只研究两个分类变量且每个分类变量只取两个值,这样的列联表称为22列联表. 2.独立性检验的基本思想 问题1:由以上列联表,在不吸烟者中患肺癌的比例为 ;在吸烟者中患肺癌的比例为 由吸烟和患肺癌列联表可以粗略地估计出:在不吸烟样本中,有患肺癌;在吸烟样本中,有患肺癌. 因此,直观上可以得到结论:吸烟群体和不吸烟群体患肺癌的可能性存在差异. 与表格相比,图形更能直观地反映出两个分类变量间是否相互影响. 我们画出等高条形图 通过图像与表格的判断,你的结论是什么 通过图1我们发现在吸烟样本中,患肺癌的频率更高一些,因此直观上可以认为吸烟更容易引发肺癌. 那么这种直观判断是否可靠呢?我们通过统计分析回答这个问题. 为了回答上述问题,我们先假设 :吸烟与患肺癌没有关系. 用表示不吸烟,表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”,即假设等价于 _______________ 把表1中的数字用字母代替,得到如下用字母表示的列联表: 表2 吸烟与患肺癌的列联表 单位:人 不患肺癌 患肺癌 总计 不吸烟 吸烟 总计 表中,恰好为事件发生的频数;和恰好分别为事件和发生的频数. 因为频率近似于概率,所以在成立的条件下应该有 其中为样本容量,即 即 因此,越小,说明吸烟与患肺癌之间关系越弱;越大,说明吸烟与患肺癌之间的关系越强. 为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变量 ① 其中为样本容量. 若成立,即“吸烟与患肺癌没有关系”,则应该很小,根据表1中的数据,利用公式①计算得到的观测值为 . 这个值到底能告诉我们什么呢? 统计学家经过研究后发现,在成立的情况下, ② 表3 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 即在成立的情况下,的观测值超过的概率非常小,近似为,是一个小概率事件. 一般来说在一次试验中小概率事件不应发生. 现在的观测值,远远大于,所以有理由断定不成立,即认为“吸烟与患肺癌有关系”. 但这种判断有可能犯错误,且犯错误的概率不会超过. 这里的犯错误是指把“吸烟与患肺癌没有关系”错判成“吸烟与患肺癌有关系”. 所以我们的结论是 “在犯错误的概率不超过的前提下认为吸烟与患肺癌有关系”或者“我

文档评论(0)

1亿VIP精品文档

相关文档