- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
非参数统与计方法简介
非参数统计方法简介 廖海仁 2011.3.17 提 纲 统计的稳健性 参数统计 vs 非参数统计 单总体位置参数的检验 1)中位数的符号检验 2)符号秩和检验 分布的一致性检验: χ2检验 两总体的比较与检验 多总体的比较与检验 统计之都论坛的一个帖子 标题:心理统计求教,方差分析还是T检验呢? 内容: 问题是这样的:对我校4个年级的大学生适应心理进行分析,每个年级得出50组数据,现在要比较不同年级之间适应性的差异性,到底要用什么检验,用spss这样操作呢?小妹在此求教求真理,谢谢各位大哥了~!! 回答一: 一般与人的行为相关的数据都是偏态的分布,方差分析和t-test就不适用了吧 统计的稳健性 指统计的一种性质:当真实模型与理论模型有不大的偏离时,统计方法仍能维持较为良好的性质,至少不致变得太坏。 实际应用中总体的分布的假定的分布常略有偏离;大量的观测数据中常存在部分异常数据。 (1)对总体分布的稳健性 若性能与总体的正态性有较强的依赖关系者,如F检验,其稳健性较差;而与总体均值相关的统计方法,如t检验之类,其稳健性相对较好。 (2)对异常数据的稳健性 典型例子:样本均值估计总体均值,受异常数据影响较大,相对中位数与截断均值更不稳健。 获得对异常数据稳健性的途径:a) 设计有效的方法发现并剔除异常值;b) 设计对个别异常数据不敏感的统计方法 参数统计 vs 非参数统计 参数统计 假设总体分布函数已知(大多数基于正态假设)或只带有一些未知参数 非参数统计 如果在一个统计问题中,如果其总体分布不能用有限个实数来刻画,只能对它做一些分布连续、有密度、具有某些矩等一般性的假定,则称为非参数统计问题。 非参数方法的特点 方法的适用面广而效率可能较低 大样本理论占重要位置 所谓大样本统计方法是指根据统计量的极限性质而得出的统计方法 大样本理论依赖于概率论的极限理论 从数据本身获取信息 具有良好的稳健性 基本概念 秩(Rank): 把样本X1,X2,…,Xn按大小排列为X(1) = X(2) =…= X(n), 若Xi=X (Ri) ,则称Ri为Xi的秩, 全部n个秩构成秩统计量。秩统计量是非参数统计的一个主要工具。 《Statistical Methods Based on Rank》E.L. Lehmann 《Order Statistics》 H.A. David 中位数(Median) ? 均值(Mean) 优点:(1)有时比数学期望更有代表性; (2)受少数异常值的影响很小 (3)理论上总是存在 性质:设X有概率密度函数f(x), 另h(a)=E|X-a|, 当a为X的中位数m时,h(a)达到最小值。 缺点:(1)X1+X2的中位数与X1,X2的中位数缺乏简单联系,数学上处理复杂且不方便 (2)中位数可能不唯一,对于离散型,定义可能不理想 (3)实际计算的复杂度远大于均值计算的复杂度 样本数据分析的一般步骤 数据探查 R: plot, hist, boxplot 分布的检验 使用QQ图 R:qqnorm, qqline Shapiro-Wilk Normality test(正态分布检验)(适合小样本 N2000) R: shapiro.test(x) Kolmogorov-Smironov test (K-S分布检验) (适合大样本) ks.test(x, pnorm, mean = mean(x), sd = sqrt(var(x))) 使用具体的假设检验方法:方差分析、T检验、非参数方法等 中位数的符号检验 在总体分布为正态分布时,要检验其均值是否为μ,使用t检验: T= (X- μ) / (s/sqrt(n)) ~ t(n-1)。当分布未知时,此方法可能有风险 中位数检验:检验其中位数是否为M0 H0: M=M0 ? H1: M ≠ M0 (双边假设检验) 符号检验检验统计量: S+ = #{Xi: Xi-M0 0, i=1,2,3,…,n} 将其转化为二项分布检验: S+ ~ binom(n, ?) R实现:无直接函数,自己借用binom.test(s, n, p=0.5, …) 符号秩和检验 符号检验不足:不考察值的大小,不能检验出偏度非常大的分布(实例中的值明显偏大于6064,却没
文档评论(0)