关于独立性检验的基本思想及其初步应用的教学思考金克勤教学.DOCVIP

  • 5
  • 0
  • 约2.65千字
  • 约 6页
  • 2018-01-05 发布于天津
  • 举报

关于独立性检验的基本思想及其初步应用的教学思考金克勤教学.DOC

关于独立性检验的基本思想及其初步应用的教学思考金克勤教学

关于独立性检验的基本思想及其初步应用的教学思考 金克勤 教学内容与内容解析 教学的逻辑结构 (1)教学的必要性:由于日常生活和生产实践中,我们常常需要对一些现象作客观地判断,需要“透过现象看本质”。首先我们需要明确如何通过现象去发现问题的本质?运用抽样分析的统计方法是我们获得事物本质的重要手段。如何获取具有代表性的抽样数据,是所有工作的前提。如为了判断“吸烟是否对肺癌有影响”,我们需要选择有代表性的样本进行分析推断。 (2)样本数据的分析:通过对于样本数据的整理和统计分析,我们可以知道样本的具有的某些性质或规律。可以采用列联表的方式整理数据,通过计算频数、画统计图表等方法分析数据,而得出关于样本的结论。 (3)用样本推断总体:虽然为了保证样本的代表性,我们在抽样时采取了保证数据代表性的做法。但是由于有存在随机抽样的误差,你所抽取的样本统计结果,能否作为总体的一种推断还不得而知。因此,本节课的核心问题是分析和寻找一个“指标”,当这个“指标”符合一定条件时,哪怕存在随机抽样误差,这种误差不足以影响利用样本所进行的统计推断。换言之,利用样本对总体进行推断犯错的概率会很小。 教学的重点 (1)样本的选择要求与样本数据的统计分析,列联表的概念与等高条形图; (2)以“吸烟与患肺癌有没有关系”的独立性检验为例,统计推断的思想与统计量的获得。 关于统计推断的思想与统计量的获得 样本数据分析 (1)为了了解患肺癌是否与吸烟有关,就需要调查其他条件都基本相同的人群,就因素X:吸烟与不吸烟与因素Y:患肺癌与不患肺癌进行分析。对于获得的一个样本按两个因素的两种分类进行统计,得到2×2的列联表,如: 吸烟与患肺癌列联表 单位:人 不患肺癌 患肺癌 总计 不吸烟(A) 7775 42 7817 吸烟() 2099 49 2148 总计 9874 91 9965 在这里,要明确为什么我们要求被调查的对象在年龄、生活和工作环境等因素方面尽量相同是为了避免这些因素对“是否患肺癌”的影响。因为不同的年龄段或者不同的生活环境等因素可能也会导致人们易患肺癌。如果调查时不考虑这些因素,即使我们对于样本数据分析的结果是患肺癌与吸烟有关,也分不清楚相关性真的是由于吸烟造成的,还是由其他因素引起,因此只有尽量控制调查对象在其他方面的一致性,才能根据调查数据有效地分析患肺癌与吸烟的相关性。这是统计学的基础。 (2)样本数据的处理: 在7817个不吸烟的人中有42患肺癌,患者比例为;在2148个不吸烟的人中有49个患肺癌,患者比例为,,即吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高出了4.2倍。这说明吸烟与患肺癌有很大关系。 (3)统计图表的直观显示: 为了能够直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征。(建议用这个图,与EXCEL产生的图一致) 2.统计量的引入与原理分析 (1)统计量的引入的必要性:是否存在这样的可能:由于这9965人是选取的,会不会由于随机抽样的误差,使得抽取的91位肺癌患者中碰到了较多的吸烟,而在9847位非肺癌患者中碰到了较多的不吸烟者。这样也可以导致吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高。 如果存在这样的可能,我们原先对于样本数据所作的分析所得到的结论不是不可靠了吗?那怎么办? 如果我们能够说明即使存在随机抽样误差,这种误差还不足以造成如此之大的差异,那么我们的样本分析结论就可以认为是可靠的。 (2)我们需要寻找一个能够判断由于随机抽样误差的存在,而造成我们判断失误的评价指标。 为了分析两个分类变量是否独立,我们可以假设这两个分类变量是独立的,即 H0:吸烟与患肺癌没有关系。用A表示“为不吸烟”,B表示“不患肺癌”,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”,即假设H0等价于P(AB)=P(A)P(B)。根据事件的相互独立性,若A与B独立,则与B,A与,与也都独立。如果我们将列联表中的数据用字母代替,得到如下用字母表示的列联表: 吸烟与患肺癌列联表 单位:人 不患肺癌(B) 患肺癌() 总计 不吸烟(A) a b a+b 吸烟() c d c+d 总计 a+c b+d A+b+c+d=n 根据频率与概率之间的关系:P(AB)的估计值为:PAB=,P(A)P(B)的估计值为:PAPB=,则应该接近1,因此应该很小;同理,与B独立,则;A与独立,则,与也独立,则。若A与B独立,则,,,都应该很小。如何将各个因素都考虑到并统一地构造一个评价指标? (1)作为衡量的指标? =, 这样我们就得到了一个能够衡量两个分类变量的统计量,当两个分类变量独立(无关)时,这个量应该接近于0,如果比较大,那么我们就有理由怀疑两个分类变量无关的假设是否错误。 (2

文档评论(0)

1亿VIP精品文档

相关文档