- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[社会学]《统计学:思想、方法与应用》第7章 方差分析
怎样解决下面的问题?;第7章 方差分析;学习目标 ;【 例 】研究员想挑选出能使小麦亩产量最大的化肥,选了三个品牌的化肥:A,B和C。;研究分类自变量(因子factor)对数值因变量(观测结果)的影响
例如:“化肥品牌”是一个分类自变量
两个或多个 水平(level)或分类。例如:3个化肥品牌
一个数值型因变量,产量
分析三个品牌的化肥的产量是否有显著差异,也就是要判断“品牌”对“产量”是否有显著影响
作出这种判断最终被归结为检验这三个品牌的产量的均值是否相等
若它们的均值相等,则意味着“品牌”对产量是没有影响的;若均值不全相等,则意味着“品牌”对产量是有影响的。
;可以用假设检验吗?
两两比较三种品牌的产量均值是否存在差异。
用t分布比较3组总体均值,需要进行3次不同的t检验。
如果显著性水平设为0.05,那么正确判断的概率为0.95。因为我们分别进行3次独立的检验,任何一次检验都不做错误判断的概率为:P(都正确)=0.953=0.8574
因此,至少一次错误的概率为1-0.8574=0.1426。总之,如果我们用t分布分别做3次独立的检验,至少有一样本错误发生的概率从0.05上升到了0.1426。
;方差分析基本原理;从散点图上可以看出
不同品牌的产量是有明显差异的
同一个品牌,不同地块的产量也明显不同
B较高,C较低
品牌与产量之间有一定的关系
如果品牌与产量之间没有关系,那么它们的产量应该差不多相同,在散点图上所呈现的模式也就应该很接近;方差分析的基本原理;仅从散点图上观察还不能提供充分的证据证明化肥品牌与小麦产量之间有显著差异
这种差异也可能是由于抽样的随机性所造成的
需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析
所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值之间是否有差异时则需要借助于方差
这个名字也表示:它是通过对数据误差来源的分析判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源;误差分解;;误差度量(均方—MS);方差分析的基本原理(误差分析);误差分析(F-检验);;设?1为化肥品牌A下产量的均值,?2为化肥品牌B下产量的均值,?3为化肥品牌C下产量的
提出的假设为
H0 : ?1 ? ?2 ? ?3
H1 : ?1 , ?2 , ?3 不全相等
计算检验统计量
计算P值,作出决策;;单因素方差分析表(基本结构);由SPSS可以得到方差分析表: ;用Excel进行方差分析 (Excel检验步骤) ;用SPSS进行方差分析 (单因素方差分析);7.1.4 F检验:比较均值;进一步的问题... ;多重比较方法;由SPSS可以得到多重比较结果 ;在研究分类型自变量和数量型因变量之间关联。在这里,我们在此研究的是化肥品牌和小麦产量两个变量。其它还有诸如职业与收入的关系、不同教育方法与学生的学习水平的关系等例子。
应用方差分析需要的假设条件有:(1)各总体是正态分布。(2)各总体的有相同的标准差。(3)样本互相独立。当满足上述条件时,可以用F分布作为检验统计量的分布。
方差分析是基于计算因变量在按照自变量的各类的均值之间的差异程度和每一类中观测值的差异程度。
F检验及其p-值告诉我们因变量在各类中的均值是否有显著差异。通常当p-值小于0.05时就可以拒绝零假设了
有时我们会看到p值下面的数值显示*和**。在脚注中会解释一个星号表示它的p值小于0.05,而两个星号则表示p-值小于0.01;7.3 双因素方差分析;双因素方差分析(two-way analysis of variance) ;双因素方差分析 (例题分析);7.3 双因素方差分析;7.3.1 无交互效应的双因素方差分析;7.3.1 无交互效应的双因素方差分析;7.3.1 无交互效应的双因素方差分析;从该表可以看出,关于对司机的零假设的p-值是0.002,对路线的零假设的p-值是0.024。可以得知在0.05的显著性水平下,路线和区组的零假设都被拒绝。
因此,路线和司机这两个因素都对行驶时间有显著作用,也就是说这两个因素的不同水平的确造成了行驶时间的不同。
这表明司机这个因素的引进,使得路线对行驶时间从没有影响变成有显著影响。;?例题分析
线路因素和司机因素合起来总共解释了行车时间差异的78.45%
其他因素(残差变量)只解释了销售量差异的21.55%;7.3.2 有交互效应的双因素方差分析;例7.3 该地区的交管局还想研究司机变化所带来的行驶时间的变化与行驶的路线是否有关?因此,我们假设对这个地区的交管局进行了2次测试。获得数据如下表所示;m为样本的行数;7.3.2 有交互效应的双因素方差分析;7.3.2 有交互效应的双因素方差分析;本章小结
文档评论(0)