- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3.2独立性检验的基本思想及其初步应用--------(2课时).ppt
3.利用三维柱形图或二维条形图,可以粗略判断两个分类变量是否有关系,但这种判断不能精确地给出所得结论的可靠程度. 4.在只有两个分类变量的独立性检验中,一般的当K2的观测值k很大时,就认为所涉及的两个分类变量有关系,否则,就认为没有充分的证据显示这两个变量有关系. 作业: P97练习题; 习题3.2第1题. * 3.2 独立性检验的基本思想 及其初步应用 第三章 统计案例 问题提出 1.对于一组样本数据(x1,y1),(x2,y2),…,(xn,yn),当相关系数r在什么范围内取值时,可判断变量x,y具有很强的线性相关关系? |r|∈[0.75,1] 2.相关指数R2或残差平方和Q(a,b)的大小变化,对回归模型的拟合效果产生什么影响? R2越大或Q(a,b)越小,回归模型的拟合效果越好. 3.对于某两个变量x,y,它们的取值不一定具有数量特征,当x变化时,变量y的取值可能与x有关,也可能与x无关.对此,我们需要建立一个检验两个变量是否有关系的统计方法,即独立性检验. 探究(一):分类变量及其表示 思考1:若用x表示性别变量,则x的可能取值有哪几种?若用x表示高考报考类别变量,则x的可能取值又有哪几种? 性别变量:男、女; 报考类别变量:理科、文科、体育、音乐、美术、播音与主持等. 思考2:如果变量的不同取值表示个体所属的不同类别,则称这种变量为分类变量,那么分类变量有哪些特点? 分类变量的取值一般不具有数字特征;分类变量的取值一定是离散的. 思考3:吸烟与否、患肺癌与否都是分类变量,为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机调查了9965人,所得结果如下表: 9965 91 9874 总计 2148 49 2099 吸烟 7817 42 7775 不吸烟 总计 患肺癌 不患肺癌 上表称为列联表,一般地列联表的含义是什么? 反映分类变量的频数表 思考4:从上述列联表可以粗略估计出:在不吸烟者中,有0.54%患有肺癌;在吸烟者中,有2.28%患有肺癌,由此可得什么直观判断? 吸烟者和不吸烟者患肺癌的可能性存在差异. 9965 91 9874 总计 2148 49 2099 吸烟 7817 42 7775 不吸烟 总计 患肺癌 不患肺癌 思考5:下图称为三维柱形图,它可以直观反映上述列联表中各个频数的相对大小,如何用Excel软件画三维柱形图? 思考6:下图称为二维条形图,它可以直观反映吸烟者中患肺癌的比例高于不吸烟者中患肺癌的比例,其中浅色条高表示不患肺癌的人数,深色条高表示患肺癌的人数,如何用Excel软件画二维条形图? 思考7:为了更清晰地表达上述特征,还可以用如下等高条形图表示两种情况下患肺癌的比例,其中浅色条高表示不患肺癌的百分比,深色条高表示患肺癌的百分比,如何用Excel软件画等高条形图? 思考8:通过对上述数据和图形的分析,我们得到的直观结论是“吸烟和患肺癌有关”,在理论上这个结论成立的概率有多大? 不知道! 探究(二):独立性检验 思考1:假设H0:吸烟和患肺癌没有关系,即吸烟与患肺癌相互独立,用A表示不吸烟,B表示不患肺癌,根据独立性事件的概率原理,假设H0等价于什么? P(AB)=P(A)P(B) 思考2:把前面吸烟与患肺癌列联表中的数据用字母代替,得到如下用字母表示的列联表: a+b+c+d b+d a+c 总计 c+d d c 吸烟 a+b b a 不吸烟 总计 患肺癌 不患肺癌 由于频率近似于概率,则在H0成立的条件下有什么结论? 思考3:将上述关系式化简得ad≈bc,那么|ad-bc|的大小变化,对吸烟和患肺癌之间的关系的强弱有什么影响? |ad-bc|越小,吸烟和患肺癌之间的关系越弱; |ad-bc|越大,吸烟和患肺癌之间的关系越强. 思考4:为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变量: 如果H0成立,那么K2的取值应该很大还是很小? K2应该很小 思考5:根据前面吸烟与患肺癌列联表中的数据,计算得K2的观测值k≈56.632,这个计算结果说明什么问题? 9965 91 9874 总计 2148 49 2099 吸烟 7817 42 7775 不吸烟 总计 患肺癌 不患肺癌 H0不成立,即吸烟和患肺癌有关系 思考6:统计学家研究发现,在H0成立的情况下,P(K2≥6.635)≈0.01,这个结论有什么含意? 若H0成立,则K2的观测值超过6.635的概率非常小,近似为0.01,即有99%的把握认为H0不成立. 思考7:上面这种利用随机变量K2来确定是否能以一定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验.其基本思路是:先假设吸烟和患肺癌
原创力文档


文档评论(0)