- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[理学]6 卡方检验
前面介绍的各种假设检验方法,都基于连续型随机变量的理论分布所建立起来的模型作为依据,适用于取信息于连续型随机变量的样本资料,若用于非连续型变量的数据分析时会受到一些约束或限制。本章介绍的 c2检验,则可以用于非连续型变量(即可数性资料)的分析。使用 c2统计量进行的检验主要有拟合优度检验(也称适合性检验)和独立性检验两大类型。 第一节 拟合优度检验(适合性检验) 所谓拟合优度,就是指观察到的样本表现与某种理论模型吻合的程度。拟合优度检验就是对观察的样本表现与所选某种理论模型的拟合程度作推断判决。 比如眼下有观察资料,需判明它是来自遵从何种分布的总体,我们可以根据已有的经验对它作是“来自某种总体”的假定(假设),即 H0:F(x) = F0(x) 式中,F0(x)表示已知的某种分布,如正态分布、二项分布、c2分布等。值得注意的是在这里建立统计假设不同于以前所作的假设检验,前面作假设检验时总是选择欲否定的内容作成立的假定;而在这里我们通常是选择最有可能接近的类型作成立的假设。 在刚才假设成立的情况下,(x1 , x2,…,xn)便是来自分布函数为F0(x)总体的一个样本。样本容量足够大时,样本分布Fn(x)[经验分布函数]与总体分布F0(x)应该非常接近,或者说应该有相当的吻合程度。但由于抽样误差,总不可能完全吻合。 剩下的问题是:如何度量它们之间的吻合程度及如何判断它们之间的不吻合部分纯然是由于抽样误差所造成的。 回顾以前我们对样本资料作初步加工、整理成分组资料时,可以算得各组的实测频率。如果我们将总体分布也划分成同样多个取值区间,也可以算得随机变量取值于各个区间的概率。在假设成立时,这个取值于各区间的概率就是样本各个组频率应有的理论值,而实测频率对于理论频率总的偏差就可以度量它们之间吻合的程度或不吻合的程度。如果不吻合仅仅是由于抽样误差造成的,那么这个偏差的总量应不会太大,太大了我们就不能接受这种解释。 至于太大的标准是什么呢?我们可以使用c2统计量来度量,并且在实际计算中使用频数而不使用频率(因频率是相对数,频数才是原始信息)。c2值的计算式为: 对以给定的显著水平a 和样本df,由 c2 分布的右侧临界值表可以查得满足于 时的ca。若实测统计量值没有落入右侧否定域,我们便可以接受原来的假设,即认为不吻合部分是由于抽样误差造成的。若实测统计量值落进了右侧否定域,则不能接受原假设,需要选择其他更合适的分布模型。在实际应用中,更多喜欢由c2分布右侧临界值表中查出“≤实测c2值”的表中同一自由度下的c2数值,由它对上的P值来作为拟合优度的指标。 最后还要注意,若假设中F0(x)含有未知数,并且这参数需要由样本来估计时,则自由度还应减去未知数的个数,即df = n- k。 下面通过具体例子来进一步说明。 例6.1 有100株杨麦1号小麦株高的样本分组资料如表6-1,并且已经算得样本 x = 94.8,样本S = 5.2。试判断该小麦的株高表现是否遵从正态分布。 表6-1 100株杨麦1号的分组资料 首先算出各组的理论频率: 继而便可算出实测的c2统计量值: 遗传学里关于孟德尔分离比的拟合度检验,是遗传分析中经常使用的检验内容,也是拟合优度测度中较简单的情形,下面以例子说明。 例6.2 设有双性杂种 AaBb 自交后产生出 32 个子代,其中“AB”型20只,“Ab”型5只,“aB”型6只,“ab”型1只。问观察到的样本表现是否符合孟德尔两对独立基因的F2分离比。 解 理论上,孟德尔两对独立基因的F2分离比应为 9:3:3:1,即在32个子裔的F2群体中“AB”型应为18只,“Ab”型及“aB”型各应为6只,“ab”型2只。 这样,度量实测频数与理论频数偏差程度的c2统计量值的计算便为 第二节 独立性检验 考察两种分类(分组)方法是否相互独立,即讨论按B方法分类所形成的各个子集中的元素是否仍随机地分布于按A方法分类所分成的各个子集之中。若是,当然两种分类方法相互独立;若不是,则两种分类方法并非独立,二是相互有关联了。 如果两种分类方法是相互独立的,则从理论上说,落入第 ij 个子集的元素个数应占 但由于随机误差,落入各单元的元素个数不一定刚好就是那么多个
文档评论(0)