独立性检验困难对策与价值.docVIP

下载本文档

37
0
约7.33千字
约 16页
2018-09-15 发布于福建
举报
版权申诉

独立性检验困难对策与价值.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

独立性检验困难对策与价值

独立性检验困难对策与价值　　1 前言　　近十年来，随着计算机科学的发展以及大数据时代的到来，算法、概率与统计等知识愈发受到基础教育的重视，而独立性检验作为一种重要的统计推断方法更是如此.在2003年中国颁布的《普通高中数学课程标准（实验）》中，独立性检验被安排在选修1-2和选修2-3，具体要求如下：“通过对典型案例的探究（如“肺癌与吸烟有关吗”等），了解独立性检验（只要求2×2列联表）的基本思想、方法及初步应用.”[1]然而在独立性检验的实际教学中，学生的学习效果却不尽如人意.黄华胜关于学生对统计推断的理解研究发现，绝大部分学生不认可独立性检验和假设检验的说理方式，他们认为统计推断的结论存在运气成分，一次统计的结果不能说明问题[2].那么独立性检验究竟难在何处？有什么教学对策？又有什么教学价值？本文将分别进行探讨. 　　2 独立性检验难在何处　　2.1 具体内容方面　　2.1.1 数值变量与分类变量　　数值变量是由测量或计数所得到的量，如温度、长度、速度等，其具有数值特征，也叫定量变量.分类变量则只有性质上的差异，具体分为有序变量和无序变量.有序变量即具有次序关系的变量，如将产品分为一等品、二等品和三等品；无序变量即不具有次序关系的变量，如性别（男、女）、人种（白人、黑人、黄种人）等. 　　学生过去在回归分析和函数的学习中，所遇到的变量都是数值变量，因此缺乏有关分类变量的认知经验.但现实生活中，分类变量是大量存在的，判断两个分类变量之间是否有关系，即独立性检验要解决的问题.如“吸烟与患肺癌是否有关系”的问题中，所涉及的两个分类变量分别是：是否吸烟（可取值“是”、“否”）；是否患肺癌（可取值“是”、“否”），这两个分类变量的数据统计要用列联表的形式，而学生往往缺乏将两者视为变量的意识. 　　2.1.2 如何选择原假设H0 　　原假设H0是对所研究总体的一种假设，其目的应使后续所选的统计量在该假设之下，分布已知，进而通过实测样本，计算出统计量的值，并根据预先设定的显著性水平进行检验，做出拒绝或接受原假设的判断.例如在“吸烟与患肺癌是否有关系”的问题中，在“吸烟与患肺癌没有关系”的假设之下，统计量K2=n（ad-bc）2（a+b）（c+d）（a+c）（b+d）（当n充分大时）近似服从自由度为1的卡方分布.反之，若将“吸烟与患肺癌有关系”作为原假设，上述统计量的分布则未知，因而无法根据预先设定的显著性水平做出判断.这是独立性检验的一大教学难点，学生即使学完该节内容，往往还很困惑：根据数据，我们的直观判断明明是‘吸烟和患肺癌有关’，为什么还要做出两者无关的假设呢？假设两者有关可行吗？　　2.1.3 如何理解P（A）、P（B）的含义　　《数学选修2-3》用A表示不吸烟，B表示不患肺癌[3].那么P（A）是指的是什么，学生容易将其理解为：生活中任意一个人不吸烟的可能性.事实上这是一种误解，因为针对具体的任意个体，其吸烟与否是确定事件，不吸烟概率要么为0，要么为1，随着时间的推移，个体可能从不吸烟状态转变为吸烟状态，这种转换概率则属于另一个概率空间.根据教材的意图，P（A）应是我们在日常生活中随意碰到一个不吸烟的人的概率，其精确值是吸烟人数与人口总数的比值.而根据统计数据，利用频率估计概率可得到其近似值，因此样本的容量不能太小. 　　2.1.4 如何理解随机变量K2 　　学生在对随机变量K2的理解上，第一个难点即如何区分K2、k与k0.K2是一个随机变量，随实测数据的变化而变化，根据实测数据可计算其观测值k，而k0是一个判断规则的临界值. 　　学生在对随机变量K2的理解上，第二个难点即这个统计量是如何构造出来的.实际上，K2即在原假设H0下，每个格子实际频数与理论频数差值平方除以理论频数的累加和：　　K2=∑a，b，c，d（实际频数-理论频数）2理论频数=n（ad-bc）2（a+c）（b+d）（a+b）（c+d）. 　　学生在对随机变量K2的理解上，第三个难点即为什么要选择这一统计量，而不是ad-bc.《数学选修2-3》[3]和《数学选修1-2》[4]的解释是：为了使不同样本容量的数据有统一的评判标准，但学生容易将其误解为：K2消除了样本容量的差异，则选择小样本和大样本对结果不会造成影响.对这句话的正确理解应是：与ad-bc相比，K2的优势在于无论样本容量怎么改变，K2将近似服从同一个分布，即自由度为1的卡方分布，而样本容量越大，近似程度越高. 　　2.1.5 如何理解“犯错误的概率不超过0.01” 　　为了避免使用显著水平的概念，旧版的人教版教材在解释独立性检验的结果时，为“把握”赋予了特定的含义[5]：在实际应用中，我们把k≥k0解释为有（1-PH0（K2≥k0））×100%的把握认为