网站大量收购独家精品文档,联系QQ:2885784924

SPSS离群值和数学变换.ppt

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
“备”则“倍” 有准备、有规划的人生更精彩! * 实用生物统计分析(六) 离群值、数学变换及其他 安徽大学生命科学学院 数据集合中与其他数据有明显偏离的取值 数值上异常偏大或偏小,或根本不可能存在 来源: -- 读数、录入的错误 -- 真实存在的极端现象 离群值对统计分析的影响 造成参数估计的偏离 (means, SD) 造成对统计分布的错判 影响对统计方法的选择和结果解释(方差齐性) 离群值 (outliers) 依据常识和科学原理判断谬误 直接剔除 观察个体值偏离均值程度进行推断 箱式图观察 Z值观察 统计检验方法 Grubb’s test Dixon’s Q test Huber’s method 离群值的认定 箱式图推断离群值 分别以四分位数(Q3, Q1)为箱型方框的上、下边,以不超出区间[Q1-1.5*IQR,Q3+1.5*IQR]的最大、最小观测值为线的上、下端,超出该区域的数据视为离群值。 其中:IQR(interquartile range)= Q3-Q1 SPSS中:Graphs ? Interactive ? boxplot… 注:SPSS还定义了所谓极端值,即超出区间[Q1-3*IQR,Q3+3*IQR]范围的数值。 箱式图推断离群值 数据集:2,57,60,60,65,68,70,71,72,74,74,76,77,98,150,220 箱式图推断离群值 离群值 离群(极端)值 离群(极端)值 离群(极端)值 Z值推断离群值 以Z值区间(-3.0, +3.0)为标准,超过者为可能的离群值。这相当于以平均值为中心的99.9%置信区间。 SPSS中:Analyze ? Descriptive statistics ? Descriptives… Z值推断离群值 勾选,将标准化变量Z值视为变量存入数据列表中 Z值推断离群值 可以看到,哪怕是220其Z值也只为2.969,未过此标准(3)。与箱式图相比,Z值法更为保守。原因与算术平均值的特点有关。 Grubb’s test推断离群值 在线检验:/quickcalcs/Grubbs1.cfm 220的Z值=2.972.59 ,为离群值(alpha=0.05)。 离群值的判定 Z值法最保守, 原因是Z值本身就受极端值影响较大; 上述方法都不是硬性规定,只为参考; 对于离群值的判定要慎重,宁可保守,不可贸然删除,对较小数据集(比如100)尤其如此; 不能为追求显著性结论而人为主观地删除某些个离群值,这有违科学道德。 数学变换 参数性统计分析方法通常对数据的正态性、方差齐性、变量间的线性等有着明确或潜在的要求。若违背了这些前提,可能降低方法的可靠性,甚至导致其完全失效。 当数据不满足这些条件,可以尝试通过数学变换加以改善,以达到顺利使用这些统计方法的目的。 数学变换 数学变换的使用存在争议,实践中也会给结果的解释带来困难。 多数参数性方法是相当稳健的,即:对正态性、方差齐性的稍许偏离并不妨碍正常使用,可能因此损失的检验效力对常规分析仍可接受,尤其在样本量较大(n30)的情况下。 除非特别必要,慎用数学变换。 数学变换 存在下述情况可尝试数学变换: 数据极度偏态分布:J型分布或严重左、右偏 组间均值与标准差之间存在中度至高度的相关性 必须使用多元统计方法,但正态性和线性不满足 样本含量少(n30)且正态性、齐性不满足 数学变换 常见类型 对数变换 平方根变换 反正弦变换 倒数变换 或上述变换的组合 适合极度偏态分布,组间呈数量级变化 适合中度偏态分布,有泊松分布特征 适合偏大或偏小的百分数资料 适合J型分布资料 数学变换举例 除草剂试验,响应变量为单位面积杂草数量 区组 除草剂 1 2 3 4 5 1 838 438 77 115 17 2 422 442 61 57 31 3 277 319 157 100 47 4 175 380 52 45 16 均值 428.00 369.75 86.75 79.25 27.75 标准差 291.52 82.68 47.96 33.55 14.55 均值大,标准差也大,似乎存在相关关系 数学变换举例 均值与标准差相关系数达到0.825,散点图也看出相关趋势 数学变换举例 若直接对原始数据进行annova分析,未通过方差齐性检验,说明各组间方差差异不能忽略。 数学变换举例 对杂草数量作频数分析,可见其分布明显右偏(偏斜度curtosis=3.2490)。考虑到单位面积杂草数最有可能服从泊松分布(μ=σ2),最适合平方根变换 数学变换举例 对响应变量取平方根 Transform Compute variable… 数学变换举例 对响应变量取平方根 区组 除草剂

文档评论(0)

liyxi26 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档