12。2独立性检验的基本思想及其初步应用ppt.pptVIP

  • 1
  • 0
  • 约1.91千字
  • 约 20页
  • 2016-12-12 发布于重庆
  • 举报

12。2独立性检验的基本思想及其初步应用ppt.ppt

1.2 独立性检验的基本思想及初步应用(1) * * * * 第一章 统 计 案 例 问题: 数学家庞加莱每天都从一家面包店买一块1000g 的面包,并记录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的均值为950g。于是庞加莱推断这家面包店的面包分量不足。 假设“面包分量足”,则一年购买面包的质量数据的平均值应该不少于1000g ; “这个平均值不大于950g”是一个与假设“面包分量足”矛盾的小概率事件; 这个小概率事件的发生使庞加莱得出推断结果。 一、假设检验问题的原理 假设检验问题由两个互斥的假设构成,其中一个 叫做原假设,用H0表示;另一个叫做备择假设,用H1表示。 例如,在前面的例子中,原假设为: H0:面包分量足, 备择假设为 H1:面包分量不足。 这个假设检验问题可以表达为: H0:面包分量足 ←→ H1:面包分量不足 二、求解假设检验问题 考虑假设检验问题: H0:面包分量足 ←→ H1:面包分量不足 在H0成立的条件下,构造与H0矛盾的小概率事件A; 如果样本使得这个小概率事件A发生,就能一定把握断言H1成立;否则,断言没有发现样本数据与H0相矛盾的证据。 求解思路: 三、两个概念 这种变量的不同取“值”表示个体所属的不同类别,这类变量称为分类变量 1.分类变量 对于性别变量,取值为:男、女 分类变量在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等等。 利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.(为假设检验的特例) 9965 91 9874 总计 2148 49 2099 吸烟 7817 42 7775 不吸烟 总计 患肺癌 不患肺癌 吸烟与肺癌列联表 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人) 列联表 在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大 0.54% 2.28% 1)通过图形直观判断两个分类变量是否相关: 三维 柱状图 2) 通过图形直观判断两个分类变量是否相关: 二维 条形图 3)通过图形直观判断两个分类变量是否相关: 患肺癌 比例 不患肺癌 比例 独立性检验 H0: 吸烟和患肺癌之间没有关系 ←→H1: 吸烟和患肺癌之间有关系 通过数据和图表分析,得到结论是:吸烟与患肺癌有关 结论的可靠程度如何? a+b+c+d b+d a+c 总计 c+d d c 吸烟 a+b b a 不吸烟 总计 患肺癌 不患肺癌 吸烟与肺癌列联表 假设吸烟和患肺癌之间没有关系 ,即H0成立 则 吸烟者不患癌的比例=不吸烟者不患癌的比例 独立性检验 引入一个随机变量 作为检验在多大程度上可以认为“两个变量有关系”的标准 。 独立性检验 9965 91 9874 总计 2148 49 2099 吸烟 7817 42 7775 不吸烟 总计 患肺癌 不患肺癌 吸烟与肺癌列联表 通过公式计算 独立性检验 已知在 成立的情况下, 即在 成立的情况下,K2 大于6.635概率非常小,近似为0.01 现在的K2=56.632的观测值远大于6.635 分类变量之间关系 条形图 柱形图 列联表 独立性检验 背景分析 例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.分别利用图形和独立性检验方法判断是否有关?你所得的结论在什么范围内有效? 例2.为考察高中生性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表: 性别与喜欢数学课程列联表 总计 女 1228537 男 总计 不喜欢数学课程 喜欢数学课程 由表中数据计算得,高中生的性别与是否喜欢数学课程之间是否有关系?为什么? a c d b 独立性检验基本的思想类似反证法 (1)假设结论不成立,即“两个分类变量没有关系”. (2)在此假设下随机变量 K2 应该很能小,如果由观测数据 计算得到K2的观测值k很大,则在一定程度上说明假设 不合理. (3)根据随机变量K2的含义,可以通过 评价该假设不合理的程度,由实际计算出的, 说明假设合理的程度为99.9%,即“两个分类变量有关系”这一结论成立的可信度为约为99.9%.

文档评论(0)

1亿VIP精品文档

相关文档