- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第章 第一节
一、
观测值 行业 零售业 旅游业 民航业 制造业 1 57 68 31 44 2 66 39 49 51 3 49 29 21 65 4 40 45 34 77 5 34 56 40 58 6 53 51 7 44 自变量行业是分类变量,因变量被投诉次数是定距变量。
想知道行业对被投诉次数的影响,就要分析不同行业的被投诉次数之间是否有显著差异,即检验四个行业被投诉次数的总体均值是否相等(注意不是样本均值)。如果相等,行业对投诉次数无影响;如果均值不全相等,有影响。
为什么不用均值检验的方法?
均值检验一次只研究两个样本,要检验4个总体均值是否相等,需要6次检验(1-2,1-3,1-4,2-3,2-4,3-4)。每次检验犯第一类错误的概率是α,作多次检验会增加犯错概率和降低置信水平。而方差分析同时将所有样本信息结合在一起,增加了分析的可靠性,降低了犯错的概率,避免拒绝真实的原假设。
如何用样本均值检验总体均值即判断行业对投诉次数是否有影响?
各行业被投诉次数的样本均值不相等,是否可说明不同行业被投诉次数有明显差异?不一定,也许各行业总体均值无差异,仅仅因为抽样的随机性造成了彼此之间的差异/随机误差。(来自同一个总体的各个样本之间因为随机性而造成的均值差异和来自不同总体的样本之间的均值差异在散点图上是有差异的。)
所以,方差分析就是对于差异来源进行分析(来源于随机误差还是不同总体间的真实差异),从而判断不同总体均值是否相等。
在例1中,在同一行业(同一总体)下,样本的各观测值不同,其差异可看作抽样的随机性造成的,称之为随机误差。在不同行业(不同总体)下,各观测值也是不同的,这种差异可能是由于抽样的随机性造成的,也可能是由于行业本身的不同而造成的系统误差。
衡量同一行业下样本数据的误差,称为组内误差;衡量不同行业下样本之间的误差,称为组间误差。组内误差只包括随机误差,组间误差既包括随机误差也包括系统误差。如果行业对投诉次数没有影响,组间误差里就只包含随机误差而没有系统误差。这时,组间误差与组内误差的比值应接近1;反之,如果行业对投诉次数有影响,组间误差中除随机误差外还有系统误差,组间误差与组内误差之比就应该大于1。当这个比值达到某种程度时,就可以说不同行业的投诉次数之间有显著差异,即行业对投诉次数有显著影响。
二、μm表示,要检验m类总体均值是否相等,需要提出以下假设:
H0:μ1=μ2=….=μm, 自变量对因变量没有显著影响
H1:至少有一个以上的类别均值不等或μ1、μ2….μm不全相等。
第节
一、数据结构
设自变量A共分m类,A1,A2,..,Am。现从A1类中随机抽取n1个,A2类中随机抽取n2个,……,从Am类中随机抽取nm个(n1, n2,…nm可以不等),根据各个观测值可得到如下统计表:
A1 A2 …… Am y11 y21 . ym1 y12 y22 . ym2 … … . … . . 二、分析步骤
1、提出假设
2、构造检验统计量
(1)计算各样本均值
(2)计算全部观测值的总均值
观测值 行业 零售业 旅游业 民航业 制造业 1 57 68 31 44 2 66 39 49 51 3 49 29 21 65 4 40 45 34 77 5 34 56 40 58 6 53 51 7 44 样本均值 =49 =48 =35 =59 样本容量 7 6 5 5 总均值 ==≈47.9 (3)计算误差平方和
①总误差平方和TSS:全部观测值与总均值的误差平方和,反映了全部观测量的离散状况,
TSS=;
根据例1计算:TSS=(57-47.9)2+…..+(58-47.9)2≈4164.6
②组内误差平方和RSS
RSS=
根据例1:零售业组内误差平方和=(57-47.9)2+(66-47.9)2+….+(44-49)2=700,同理,旅游业924,民航业434,制造业650,RSS=700+924+434+650=2708
③组间误差平方和BSS
BSS==(注意要乘以ni)
根据例1计算:BSS=7(49-47.9)2+6(48-47.9)2+5(35-47.9)2+5(59-47.9)2=1456.6
三个误差平方和的关系:TSS= RSS+BSS
总结:BSS是对随机误差和系统误差大小的度量,可以反映自变量对因变量的影响;RSS是对随机误差大小的度量,反映了除自变量对因变量的影响外,其他因素对因变量的总影响,也称残差变量;TSS是对全部数据总误差程度的度量,反映了自变量和残差变量的共同影响。
如果原假设成立μ1=μ2=….=μm,则表明没有系统误差,BSS除以其自由度后的均方与RSS除以
原创力文档


文档评论(0)