第七章方差分析.doc

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE PAGE 1 第七章 方差分析 方差分析是20世纪20年代发展起来的一种推断统计方法。目前,方差分析广泛应用于经济管理、工程学、心理学和医学等领域。从形式上看,方差分析是通过对数据误差来源的分析来比较多个总体的均值是否相等,本质上它是研究变量之间的关系,即分类型自变量与数值型因变量之间的关系。本章将主要介绍单因素方差分析与双因素方差分析的基本知识。 第一节 方差分析的一般问题 一、方差分析及其有关术语 方差分析表面看来是检验多个总体均值是否相等的统计方法,本质上是研究分类型自变量对数值型因变量的影响,通过对数据误差来源的分析,判断分类型自变量多个水平对应的总体均值是否相等,进而分析自变量对因变量的影响是否显著。下面用一个例子来说明方差分析的有关概念以及方差分析所要解决的问题。 【例7-1】某市场调查公司为了研究品牌对空调销售额的影响,对四个品牌空调的销售情况进行了调查,结果如表7-1。试分析品牌对空调的销售额是否有显著影响。 表7-1 不同品牌空调的销售额数据 单位:万元 观测值    品 牌 品牌A 品牌B 品牌C 品牌D 1 365 345 358 288 2 340 330 300 290 3 350 363 323 280 4 343 368 353 270 5 323 340 300 280 6 400 要分析品牌对销售额是否有显著影响,只需判断4种品牌销售额的均值是否相等。如果它们的均值相等,就意味着不同品牌空调销售额无差异,即“品牌”对“销售额”没有显著影响;如果均值不全相等,则意味着“品牌”对“销售额”有显著影响。我们可以计算出这4种品牌空调的平均销售额分别为353.5万元、349.2万元、326.8万元、281.6万元,但是它们均值的差异还不能提供充分的证据证明不同品牌对销售额的影响是显著的,因为每个品牌的平均销售额是根据随机样本的数值计算的,均值的差异可能是由于抽样随机性造成的。因此,需要有更准确的方法来检验这种差异是否是显著,就需要进行方差分析。 方差分析(analysis of variance, ANOVA)就是借助于对误差来源的分析,检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。方差分析中,所要检验的对象为自变量,也称为因素或因子(factor)。因素的不同表现称为水平或处理(treatment)。每个因素水平下得到的样本数据为观测值。例如,在例7-1中,分析的是“品牌”对“销售额”的影响,这里的“品牌”是分类型自变量(因素或因子);品牌A、品牌B、品牌C、品牌D就是“品牌”这个变量的具体取值,也是“品牌”这一因素的具体表现,称为“水平”或“处理”;每种品牌的具体数据(销售额)称为观测值。这里因素的每一个水平可以看作一个总体,如品牌A、B、C、D可以看作4个总体,上面的观测值是根据从这4个总体中抽取的样本进行调查而获取的数据。“销售额”是因变量,它是一个数值型变量,不同的销售额就是因变量的取值。 二、方差分析的基本思想和原理 方差分析是研究分类型自变量对数值型因变量的影响。如例7-1,怎样判断品牌对销售额是否有显著影响呢?最简单的方法就是直接比较不同品牌空调的平均销售额,如果平均销售额差异不大,就可以认为品牌对销售额影响不显著,反之,认为影响显著。这种差异多大才能认为其影响显著,需要更准确的方法,就是方差分析。虽然我们感兴趣的是各总体的均值是否相等,但判断其均值是否相等,需借助于对数据误差来源的分析,进而分析自变量对对因变量是否有显著影响,这就是方差分析的基本思想。 那么方差分析是怎样对数据误差进行分析的呢?下面结合例7-1进行说明。首先,同一品牌(同一总体)下,各样本观测值是不同的。例如在品牌A中,所得到的6个观测值是不同的,它们之间的差异可以看作是随机因素的影响造成的,或者说是抽样的随机性导致的随机误差。这种来自水平内部的数据误差称为组内误差,它反映了样本内部数据的离散程度。 其次,不同品牌(不同总体)之间的观测值也是不同的,这种差异可能是由于抽样的随机性形成的随机误差,也可能是由于品牌(总体)不同这一因素造成,称为系统误差。来自不同水平之间数据的误差称为组间误差,这种差异是随机误差和系统误差之和,它反映了不同样本之间数据的离散程度。 如果品牌对空调销售额没有影响,那么不同品牌(总体)之间观测值的差异只包含随机误差,而没有系统误差。此时,组间误差与组内误差经过平均化处理后的数值(称为均方)之比应该接近1,反之,如果品牌对空调销售额有影响,在组间误差中除了随机误差外,还包含系统误差,此时组间误差与组内误差经过平均化处理后的数值(称为均方)之比大于1。当这个比值大到某个数值(临界值)时,就认

文档评论(0)

sxjctywd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档