- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
知识讲解 独立性检验的基本思想及其初步应用(文、理)
独立性检验的基本思想及其初步应用
【学习目标】
1. 了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用
2. 通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用.
【要点梳理】
要点一、分类变量
有一种变量,这种变量所取不同的“值”表示的是个体所属不同类别,称这种变量为分类变量。
要点诠释:
(1)对分类变量的理解。
这里的“变量”和“值”都应作为广义的“变量”和“值”进行理解。例如:“性别变量”有“男”和“女”两种类别,这里的变量指的是性别,同样这里的“值”指的是“男”和“女”。因此,这里所说的“变量”和“值”取的不一定是具体的数值。
(2)分类变量可以有多种类别。例如:吸烟变量有“吸烟”与“不吸烟”两种类别,而国籍变量则有多种类别。
要点二、2×2列联表
1. 列联表
用表格列出的分类变量的频数表,叫做列联表。
2. 2×2列联表
对于两个事件A,B,列出两个事件在两种状态下的数据,如下表所示:
事件B 事件 合计 事件A a b a+b 事件 c d c+d 合计 a+c b +d a+b+c+d 这样的表格称为2×2列联表。
要点三:卡方统计量公式
为了研究分类变量X与Y的关系,经调查得到一张2×2列联表,如下表所示
Y1 Y2 合计 X1 a b a+b X2 c d c+d 合计 a+c b+d n=a+b+c+d 统计中有一个有用的(读做“卡方”)统计量,它的表达式是:
(为样本容量)。
要点四、独立性检验
独立性检验
通过2×2列联表,再通过卡方统计量公式计算的值,利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
变量独立性的判断
通过对统计量分布的研究,已经得到两个临界值:3.841和6.635。当数据量较大时,在统计中,用以下结果对变量的独立性进行判断:
①如果≤3.841时,认为事件A与B是无关的。
②如果>3.841时,有95%的把握说事件A与事件B有关;
③如果>6.635时,有99%的把握说事件A与事件B有关;
要点诠释:
(1)独立性检验一般是指通过计算统计量的大小对两个事件是否有关进行判断;
(2)独立性检验的基本思想类似于反证法。即在H0:事件A与B无关的统计假设下,利用统计量的大小来决定在多大程度上拒绝原来的统计假设H0,即拒绝“事件A与B无关”,从而认为事件A与B有关。独立性检验为假设检验的特例。
(3)利用独立性检验可以考察两个分类变量是否有关,并且能较精确地给出这种判断的把握程度。
3.独立性检验的基本步骤及简单应用
独立性检验的步骤:
要推断“A与B是否有关”,可按下面步骤进行:
(1)提出统计假设H0:事件A与B无关(相互独立);
(2)抽取样本(样本容量不要太小,每个数据都要大于5);
(3)列出2×2列联表;
(4)根据2×2列联表,利用公式:,计算出的值;
(5)统计推断:当>3.841时,有95%的把握说事件A与B有关;
当>6.635时,有99%的把握说事件A与B有关;
当>10.828时,有99.9%的把握说事件A与B有关;
当≤3.841时,认为事件A与B是无关的.
要点诠释:
使用统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5.
一定要弄清的表达式中各个量的含义.
独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量应该很小,如果由观测数据计算得到的的观测值很大,则在一定程度上说明假设不合理.根据随机变量的含义,由实际计算的>6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.当≤3.841时,认为两个分类变量是无关的.
【典型例题】
类型一、
例1.为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校学生中随机地抽取了50名学生,得到如下列联表:
喜欢数学 不喜欢数学 合计 男 13 10 23 女 7 20 27 合计 20 30 50 根据表中的数据,
【思路点拨】利用公式计算
【解析】得到
列联表计算统计量作独立性检验时,要求表中的4个数据大于等于5,为此,在选取样本的容量时一定要注意这一点。
举一反三:
【变式1】研究两个事件A,B之间的关系时,根据数据信息列出如下的2×2列联表:
B 合计 A n11 n12 n1+ n21 n22 n2+ 合计 n+1 n+2 n 则以下计算公式正确的是( )
A. B.
C. D.
【答案】A
【变式2】由列联表
合计 43 162 205 13 12
文档评论(0)