8.3.1 分类变量与列联表.doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

8.3列联表与独立性检验

8.3.1分类变量与列联表

课标要求

素养要求

1.通过实例,理解2×2列联表的统计意义.

2.理解判断两个分类变量是否有关系的常用方法.

通过学习2×2列联表,提升数学抽象、直观想象及数据分析素养.

自主梳理

1.分类变量

我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量,分类变量的取值可以用实数表示.

2.2×2列联表及随机事件的概率

(1)2×2列联表:如果随机事件X与Y的样本数据如下表格形式

X

Y

合计

Y=0

Y=1

X=0

a

b

a+b

X=1

c

d

c+d

合计

a+c

b+d

a+b+c+d

在这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表.

(2)2×2列联表中随机事件的概率:

如上表,记n=a+b+c+d,则

事件{Y=0}发生的概率可估计为eq\f(a+c,n);

事件{X=1}发生的概率可估计为eq\f(c+d,n);

事件{X=1,Y=0}发生的概率可估计为eq\f(c,n);

事件{X=1|Y=0}发生的概率可估计为eq\f(c,a+c).

2×2列联表用于研究两类变量之间是否相互独立,它适用于分析两类变量之间的关系,是对两类变量进行独立性检验的基础.

3.等高堆积条形图

等高堆积条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高堆积条形图展示列联表数据的频率特征,依据频率稳定于概率的原理,我们可以推断结果.

自主检验

1.思考辨析,判断正误

(1)分类变量中的变量与函数中的变量是同一概念.(×)

提示分类变量中的变量是指一定范围内的两种现象或性质,与函数中的变量不是同一概念.

(2)列联表中的数据是两个分类变量的频数.(√)

(3)列联表、频率分析法、等高堆积条形图都可初步分析两分类变量是否有关系.(√)

(4)2×2列联表只有4个格子.(×)

提示2×2列联表核心的数据是中间的4个格子.

2.下列不是分类变量的是()

A.近视 B.成绩

C.血压 D.饮酒

答案B

解析近视变量有近视与不近视两种类别,血压变量有异常、正常两种类别,饮酒变量有饮酒与不饮酒两种类别.故选B.

3.与表格相比,能更直观地反映出相关数据总体状况的是()

A.列联表 B.散点图

C.残差图 D.等高堆积条形图

答案D

4.某校为了检验高中数学新课程改革的成果,在两个班进行教学方式的对比试验,两个月后进行了一次检测,试验班与对照班成绩统计如2×2列联表所示(单位:人),则其中m=________,

n=________.

班级

成绩

合计

80分及80分以上

80分以下

试验班

32

18

50

对照班

24

m

50

合计

56

44

n

答案26100

解析由题意得eq\b\lc\{(\a\vs4\al\co1(24+m=50,,56+44=n,))解得eq\b\lc\{(\a\vs4\al\co1(m=26,,n=100.))

题型一用2×2列联表分析两分类变量间的关系

【例1】在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用eq\f(a,a+b)与eq\f(c,c+d)判断二者是否有关系.

解2×2列联表如下:

饮食习惯

年龄

合计

六十岁以上

六十岁以下

以蔬菜为主

43

21

64

以肉类为主

27

33

60

合计

70

54

124

将表中数据代入公式得

eq\f(a,a+b)=eq\f(43,64)≈0.67,eq\f(c,c+d)=eq\f(27,60)=0.45.

显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.

思维升华(1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.

(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将eq\f(a,a+b)与eq\f(c,c+d)eq\b\lc\(\rc\)(\a\vs4\al\co1(\f(b,a+b)与\f(d,c+d)))的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.

【训练1】假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:

X

Y

y1

y2

x1

10

18

x2

m

26

则当m取下面何值时,X与Y的关系最弱()

A.8 B.9

C.14 D.

文档评论(0)

钟爱书屋 + 关注
官方认证
服务提供商

为中小学学生教育成长提供学习参考资料,学习课堂帮助学生教师更好更方便的进行学习及授课,提高趣味性,鼓励孩子自主进行学习,资料齐全,内容丰富。

认证主体韵馨科技(深圳)有限公司
IP属地广东
统一社会信用代码/组织机构代码
91440300MA5G40JF61

1亿VIP精品文档

相关文档