SAS系统和数据分析Wilcoxon秩和检验参考.doc

SAS系统和数据分析Wilcoxon秩和检验参考.doc

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SAS系统和数据分析Wilcoxon秩和检验参考

Wilcoxon秩和检验 两样本的Wilcoxon秩和检验 两样本的Wilcoxon秩和检验是由Mann,Whitney和Wilcoxon三人共同设计的一种检验,有时也称为Wilcoxon秩和检验,用来决定两个独立样本是否来自相同的或相等的总体。如果这两个独立样本来自正态分布和具有相同方差时,我们可以采用t检验比较均值。但当这两个条件都不能确定时,我们常替换t检验法为Wilcoxon秩和检验。 Wilcoxon秩和检验是基于样本数据秩和。先将两样本看成是单一样本(混合样本)然后由小到大排列观察值统一编秩。如果原假设两个独立样本来自相同的总体为真,那么秩将大约均匀分布在两个样本中,即小的、中等的、大的秩值应该大约被均匀分在两个样本中。如果备选假设两个独立样本来自不相同的总体为真,那么其中一个样本将会有更多的小秩值,这样就会得到一个较小的秩和;另一个样本将会有更多的大秩值,因此就会得到一个较大的秩和。 设两个独立样本为:第一个的样本容量为,第二个样本容量为,在容量为的混合样本(第一个和第二个)中,样本的秩和为,样本的秩和为,且有: (28.1) 我们定义: (28.2) (28.3) 以样本为例,若它们在混合样本中享有最小的个秩,于是,也是可能取的最小值;同样可能取的最小值为。那么,的最大取值等于混合样本的总秩和减去的最小值,即;同样,的最大取值等于。所以,式(28.2)和式(28.3)中的和均为取值在0与的变量。当原假设为真时,所有的和相当于从同一总体中抽得的独立随机样本,和构成可分辨的排列情况,可看成一排个球随机地指定个为球,另个为球,共有种可能,而且它们是等可能的。基于这样的分析,在原假设为真的条件下不难求出和的概率分布,显然它们的分布还是相同的,这个分布称为样本大小为和的Mann-Whitney-Wilcoxon分布。 一个具有实际价值的方法是,对于每个样本中的观察数大于等于8的大样本来说,我们可以采用标准正态分布来近似检验。由于的中心点为,根据式(28.2),中心点为: (28.4) 的方差从数学上可推导出: (28.5) 如果样本中存在结值,将影响到公式(28.5)中的方差,按结值调整方差的公式为: (28.6) 其中,为第j个结值的个数。结值的存在将使原方差变小,这是一个显然正确的事实。标准化后为: (28.7) 其中,分子加0.5或减0.5是为了对离散变量进行连续性修正,对于大于0减0.5修正,对于小于0加0.5修正。 例28.1某航空公司的CEO注意到飞离亚特兰大的飞机放弃预订座位的旅客人数在增加,他特别有兴趣想知道,是否从亚特兰大起飞的飞机比从芝加哥起飞的飞机有更多的放弃预订座位的旅客。获得一个从亚特兰大起飞的9次航班和从芝加哥起飞的8次航班上放弃预订座位的旅客人数样本,见表28.1中的第2列和第4列。 表28.1 放弃预订座位的旅客人数及统一秩值 航班 次数 亚特兰大(组) 芝加哥(组) 放弃人数 统一编秩 放弃人数 统一编秩 1 11 5.5 13 7 2 15 9 14 8 3 10 3.5 10 3.5 4 18 12 8 1 5 11 5.5 16 10 6 20 13 9 2 7 24 16 17 11 8 22 15 21 14 9 25 17 秩和 96.5 56.5 如果假定放弃预订座位旅客人数的总体是正态分布且有相等的方差,我们可以采用两样本比较的t检验。但航空公司的CEO认为这两个假设条件不能满足,因此采用非参数的Wilcoxon秩和检验。将组与组看成是单一样本进行编秩,见表28.1中的第3列和第5列。最小值是8,秩值为1,最大值是25,秩值为17,有两个结值10和11,两个10平均分享秩值3和4为3.5,两个11平均分享秩值5和6为5.5。如果两组放弃预订座位的旅客人数是相同的,那么我们期望的两组秩和和大约是相同的;如果两组放弃预订座位的旅客人数是不相同的,那么我们期望的两组秩和和也是非常不相同的。 注意到9,8,=96.5,=56.5,两组放弃预订座位旅客人数的分布是相同的。标准正态分布值的计算结果为 如果设定显著水平0.05,我们知道标准正态分布在0.05显著水平时,上临界值为1.645,下临界值为-1.645,由于1.4451.645,所以不能拒绝原假设。 在使用Wilcoxon秩和检验时,也可以采用第二个样本的秩和来计算标准正态分布值,但要注意公式中和的对换。值的计算结果为: 由于-1.445-1.645,因此得到的是相同的结果,不能拒绝原假设。 另外,要特别注意的是由于在连续型分布中随机地抽出个样本,几乎极少可能存在有些值相等的情况,但在社会经济中有很多离散变量,很可能存在数值相同的情况,

文档评论(0)

2017meng + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档