非参数统与计方法简介 .ppt

下载文档 降价啦

26
0
约4.4千字
约 20页
2017-10-04 发布于浙江
举报
版权申诉
保障服务

非参数统与计方法简介 .ppt

1、本文档共20页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

非参数统与计方法简介

非参数统计方法简介廖海仁 2011.3.17 提纲统计的稳健性参数统计 vs 非参数统计单总体位置参数的检验 1）中位数的符号检验 2）符号秩和检验分布的一致性检验: χ2检验两总体的比较与检验多总体的比较与检验统计之都论坛的一个帖子标题：心理统计求教，方差分析还是T检验呢？内容：问题是这样的：对我校4个年级的大学生适应心理进行分析，每个年级得出50组数据，现在要比较不同年级之间适应性的差异性，到底要用什么检验，用spss这样操作呢？小妹在此求教求真理，谢谢各位大哥了～！！回答一：一般与人的行为相关的数据都是偏态的分布，方差分析和t-test就不适用了吧统计的稳健性指统计的一种性质：当真实模型与理论模型有不大的偏离时，统计方法仍能维持较为良好的性质，至少不致变得太坏。实际应用中总体的分布的假定的分布常略有偏离；大量的观测数据中常存在部分异常数据。（1）对总体分布的稳健性若性能与总体的正态性有较强的依赖关系者，如F检验，其稳健性较差；而与总体均值相关的统计方法，如t检验之类，其稳健性相对较好。（2）对异常数据的稳健性典型例子：样本均值估计总体均值，受异常数据影响较大，相对中位数与截断均值更不稳健。获得对异常数据稳健性的途径：a) 设计有效的方法发现并剔除异常值；b) 设计对个别异常数据不敏感的统计方法参数统计 vs 非参数统计参数统计假设总体分布函数已知（大多数基于正态假设）或只带有一些未知参数非参数统计如果在一个统计问题中，如果其总体分布不能用有限个实数来刻画，只能对它做一些分布连续、有密度、具有某些矩等一般性的假定，则称为非参数统计问题。非参数方法的特点方法的适用面广而效率可能较低大样本理论占重要位置所谓大样本统计方法是指根据统计量的极限性质而得出的统计方法大样本理论依赖于概率论的极限理论从数据本身获取信息具有良好的稳健性基本概念秩(Rank): 把样本X1,X2,…,Xn按大小排列为X(1) = X(2) =…= X(n), 若Xi=X (Ri) ,则称Ri为Xi的秩，全部n个秩构成秩统计量。秩统计量是非参数统计的一个主要工具。《Statistical Methods Based on Rank》E.L. Lehmann 《Order Statistics》 H.A. David 中位数(Median) ? 均值(Mean) 优点：（1）有时比数学期望更有代表性；（2）受少数异常值的影响很小（3）理论上总是存在性质：设X有概率密度函数f(x), 另h(a)=E|X-a|, 当a为X的中位数m时，h(a)达到最小值。缺点：（1）X1+X2的中位数与X1,X2的中位数缺乏简单联系，数学上处理复杂且不方便（2）中位数可能不唯一，对于离散型，定义可能不理想（3）实际计算的复杂度远大于均值计算的复杂度样本数据分析的一般步骤数据探查 R: plot, hist, boxplot 分布的检验使用QQ图 R：qqnorm, qqline Shapiro-Wilk Normality test（正态分布检验）(适合小样本 N2000) R: shapiro.test(x) Kolmogorov-Smironov test (K-S分布检验) (适合大样本） ks.test(x, pnorm, mean = mean(x), sd = sqrt(var(x))) 使用具体的假设检验方法：方差分析、T检验、非参数方法等中位数的符号检验在总体分布为正态分布时，要检验其均值是否为μ，使用t检验： T= (X- μ) / (s/sqrt(n)) ~ t(n-1)。当分布未知时，此方法可能有风险中位数检验：检验其中位数是否为M0 H0: M=M0 ? H1: M ≠ M0 (双边假设检验）符号检验检验统计量： S+ = #{Xi: Xi-M0 0, i=1,2,3,…,n} 将其转化为二项分布检验： S+ ~ binom(n, ?) R实现：无直接函数，自己借用binom.test(s, n, p=0.5, …) 符号秩和检验符号检验不足：不考察值的大小，不能检验出偏度非常大的分布（实例中的值明显偏大于6064，却没