8.3列联表与独立性检验课件-2024-2025学年高二下学期数学人教A版(2019)选择性必修第三册.pptxVIP

8.3列联表与独立性检验课件-2024-2025学年高二下学期数学人教A版(2019)选择性必修第三册.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第八章成对数据的统计分析§8.1成对数据的统计相关性§8.2一元线性回归模型及其应用§8.3列联表与独立性检验

8.3.1分类变量与列联表在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题。例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险等等。在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量。分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等。在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义。

【引例】为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查。全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼。你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?【分析】这是一个简单的统计问题。最直接的解答方法是,比较经常锻炼的学生在女生和男生中的比率。那么,只要求出f0和f1的值,通过比较这两个值的大小,就可以知道女生和男生在锻炼的经常性方面是否有差异。由所给的数据可知,该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼。

上面的问题还可以通过建立一个古典概型,使用条件概率的语言,给出另外一种解答方法。用Ω表示该校全体学生构成的集合,这是我们所关心的对象的总体。考虑以Ω为样本空间的古典概型,并定义一对分类变量X和Y如下:对于Ω中的每一名学生我们希望通过比较条件概率P(Y=1|X=0)和P(Y=1|X=1)回答上面的问题。按照条件概率的直观解释,如果从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率是P(Y=1|X=0),而该男生属于经常锻炼群体的概率是P(Y=1|X=1)。因此,“性别对体育锻炼的经常性没有影响”可以描述为而“性别对体育锻炼的经常性有影响”可以描述为

为了清楚起见,我们用表格整理数据性别锻炼合计不经常(Y=0)经常(Y=1)女生(X=0)192331523男生(X=1)128473601合计3208041124根据古典概型和条件概率的计算公式,我们有在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼。

XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+da+b+c+d在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存。我们将如上表这种形式的数据统计表称为2×2列联表。2×2列联表给出了成对分类变量数据的交叉分类频数。它包含了X和Y的如下信息:最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数;最后一列的前两个数分别是事件{X=0}和{X=1}中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y}(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数。

8.3.2独立性检验XY合计Y=0Y=1X=0aba+bX=1cdc+d合计a+cb+da+b+c+d前面我们通过2×2列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联。对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大。因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算。

考虑以Ω为样本空间的古典概型。设X和Y为定义在Ω上,取值于{0,1}的成对分类变量。我们希望判断事件{X=1}和{Y=1}之间是否有关联。注意到{X=0}和{X=1},{Y=0}和{Y=1}都是互为对立事件,与前面的讨论类似,我们需要判断下面的假定关系是否成立,通常称H0为零假设或原假设。这里,P(Y=1|X=0)表示从{X=0}中随机选取一个样本点,该样本点属于{X=0,Y=1}的概率;而P(Y=1|X=1)表示从{X=1}中随机选取一个样本点,该样本点属于{X=1,Y=1}的概率。由条件概率的定义可知,零假设H0等价于

因此,零假设H0等价于{X=1}与{Y=1}独立。因此,我们可以用概率语言,将零假设改述为H

您可能关注的文档

文档评论(0)

+ 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档