定性数据统计分析四格表摘要.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三章 四格表 2×2列联表 什么是四格表 【例3.1】为了解吸烟与肺癌的关系,选择63个肺癌患者和43个与肺癌患者年龄、性别和其他属性类似的健康人(对照组)进行研究,调查结果见表3.1。问总体中肺癌患者吸烟的比例是否比健康人吸烟的比例高? 表3.1 对肺癌患者和对照组的调查结果 什么是四格表 上述检验问题可以一般化为: 其数据结构关系包括五个等式。 从略 四格表的抽样方式 根据四格表的边缘分布是否给定,可能的抽样方式有以下四种: 1、单侧给定,如 n1+ 和n2+给定,则在四格中有两个随机变量,服从二项分布; 如:63个肺癌患者和43个对照组,属于行边缘分布给定的情况 2、总样本容量 n给定,则有三个随机变量,n11 , n12 , n21 , n22 服从多项分布; 如: Mendel豌豆实验,属于n给定的情况 四格表的抽样方式 3、都不给定时, n11 , n12 , n21 , n22都是随机变量,通常假定它们服从Poisson 分布 如:某商店在某一天可能来的顾客数未知,顾客的性别以及有没有购买的情况,存在4个随机变量 四格表的抽样方式 4、两侧都给定时,只有一个是随机变量,它服从超几何分布。 如:假设100件产品中有8件次品,随机抽5件加以检验,问有多少件次品? 对不同抽样方式下得到的四格表,其数据分析方法也有可能不同。 属性之间独立与不相关 两个相互独立的随机变量一定不相关,但不相关不一定独立。 这里相关指线性相关 四格表中属性A与B相互独立等价于不相关。 根据前面的频数分布表可以得到概率四格表: 属性之间独立与不相关 若以下等式成立,则称属性A和B相互独立。 该式包括: 且有: 属性之间独立与不相关 在四格表中,独立等价于不相关。 可以通过考察随机变量X(属性A)与Y (属性B)的协方差知: 其中,a1,a2和b1,b2分别是属性A和B的分类(取值) 当A与B不相关时,有: 可见,四格表中属性A与B无关也就是相互独立。 属性之间独立与不相关 在协方差的基础上,不难计算出随机变量X(A)和Y(B)的方差,并得到它们的相关系数。 各自方差分别为: 则相关系数: 可见,四格表中属性间的关系与属性的赋值无关。 单侧给定的四格表的检验 单侧给定时四格表中仅有两个随机变量,且服从二项分布 如:当n1+和n2+给定时,n11和n21分别服从: B(n1+,p1)和B(n2+,p2),其中, 上例肺癌患者吸烟比例是否比对照组高,也即要求验证假设p1=p2还是p1p2. 单侧给定的四格表的检验 可见,原假设成立时,实际上是检验属性A与B相互独立或不相关。因此,四格表的检验有以下三种情况: 单侧给定的四格表检验,其实就是两总体的比例差的检验,区别仅在于使用的值不同,一个是样本比例,一个是观测频数。 单侧给定的四格表的检验 首先,由样本比例的抽样分布有: 于是,令p1=p2=p,进行线性变换(见附录5)有: 单侧给定的四格表的检验 将 代入U后可以得到: 单侧给定的四格表的检验 例3.1的解: 在给定的显著性水平(0.05)下,显然大于临界值,应该拒绝原假设。 相应的P-值为0.00094,可以得到同样的结论。 独立性的三个等价定义 1、 2、 3、 连续性修正 二项分布是离散型分布,在用连续型分布如正态分布进行近似时,需要进行连续性修正,以提高精确程度。 连续性修正 英国统计学家Yates(1934)提出了对二项分布的近似修正方法。即: 连续性修正 一般而言,连续性修正的近似程度要比不修正好,见附表3.2。 但当二项分布随机变量取两端值时,其修正后的近似程度反而要差。 为此,四格表检验时也要进行连续性修正,基本方法为: 计算P(n11≤k)时,修正为n11+1/2; 计算P(n11≥k)时,修正为n11-1/2; 其他格的修正类似。 四格表的连续性修正 根据以上思想,Yates提出了四格表检验的修正方法: 当备择假设为p1p2时, 公式1: 当备择假设为p1p2时, 公式2: 当备择假设为p1≠p2时, 公式3: 连续性修正的比较 对例3.1计算修正的U统计量。 由该题为右检验,故采用公式1,得: 可以发现修正后的U值比原来的3.1086小,检验的P-值为0.002428,比原来的0.00094要大。 由费歇尔精确检验知(见双侧给定时的检验),修正后的U统计量更接近真实值0.002467,说明连续性修正后的近似程度更好。 单侧给定四格表的似然比检验 在单侧给定情况下,根据原假设p1=p2以及似然函数,可以得到独立性检验的似然比统计量: 就四格表而言,独立性检验的卡方检验、连续性修正后的卡方检验、以及似然比检验的效果完全相同。 单侧

文档评论(0)

我是兰花草 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档