统计学数据预处理.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计学数据预处理

统计数据的预处理 数据预处理 把混在原始数据中的“异常数据”排除、把真正有用的“信息”提取出来,有助于推断统计得出正确分析结论。 1 :异常数据取舍 2 :未检出值和/或缺失值估算 采用异常数据进行推断统计得到的结论误导带给科研与统计控制判断出错的隐患不可小视。 异常数据 单个异常值:是指单个样本观测数据组内隐含的个别异常数据。同义词有:可疑值、异常值、极端值、端值、离群值、逸出值、奇异值、超限值、粗值… 异常均数:三个以上(k≥3)样本多均数要作统计分析比较时,无疑也要检查其中是否隐含可疑均数。 研究者对7例糖尿病患者给某种药物后,测量其血中胰岛素(/ml,X1)和血糖(mg%,X2) 作者采用直线相关分析 结论:血液中胰岛素与血糖两者含量之间无直线相关 剔出第6对数据前后的Pearson 相关系数,前者是0.314,后者是-0.936,显示有相关性! 异常数据的判别法 物理判别法:根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,在实验过程中随时判断,随时剔除 统计判别法:给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常数据剔除 能用物理判别法判定异常数据有时不易做到,此时只能用统计判别法 统计判别法 拉依达准则 肖维勒准则 格拉布斯准则 狄克逊准则 t检验(罗马诺夫斯基准则) 极差法 统计判断对异常数据的区分 异常数据有两种情况: 1. 异常值不属于该总体,抽样抽错了,从另外一个总体抽出一个(一些)数据,其值与总体平均值相差较大; 2. 异常值虽属于该总体,但可能是该总体固有随机变异性的极端表现,比如说超过3σ的数据,出现的概率很小。 犯错误1:将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去,就会犯错误。----去真 犯错误2:不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来,统计检验方法判断不出它是异常值,就会犯另外一种错误。----存伪 统计判别法之一:拉依达准则 对于服从正态分布的测量结果,其偏差出现在±3σ附近的概率已经很小,如果测量次数不多,偏差超过±3σ几乎不可能,因而,用拉依达判据剔除疏失误差时,往往有些疏失误差剔除不掉。 另外,仅仅根据少量的测量值来计算σ,这本身就存在不小的误差。 因此拉依达准则不能检验样本量较小的情况。(显著性水平为0.1时,n必须大于10) 统计判别法之二:肖维勒准则 肖维勒准则又称为等概率原则,以正态分布为前提, 假设多次重复测量所得n个测量值中, 某个测量值的残余误差|vi|= Zcσ,则剔除此数据。 实用中Zc3, 所以在一定程度上弥补了3σ准则的不足,另外考虑了测量次数的因素,在一定程度上比拉依达准则更合理。 Zc是一个与测量次数相关的系数,可以查表获取。 肖维勒准则可用于n10时粗大误差的判定。 Zc系数表 统计判别法之三:格拉布斯准则 格拉布斯准则是在未知总体标准差情况下,对正态样本或接近正态样本异常值的一种判别方法。 某个测量值的残余误差|vi|= Tσ,则判断此值中含有粗大误差, 应予剔除。 T值与重复测量次数n和置信概率α均有关,因此格拉布斯准则是比较好的判定准则。 格拉布斯准则理论较严密,概率意义明确,可用于严格要求的场合,当n=20-100时,判别效果较好。 T值通过查表获得。 T0(n, α)值表 采用格拉布斯方法判定异常数据的过程如下: 1. 选定危险率α α是一个较小的百分数,例如1%,2.5%,5%,它是采用格拉布斯方法判定异常数据出现误判的几率。 2. 计算T值 ?如果x(n)是可疑数据,则令 3. 根据n及α,查表得到T0(n, α)值 4. 如果T≥ T0(n, α),则所怀疑的数据是异常数据,应予剔除。如果T0(n, α) ,则所怀疑的数据不是异常数据,不能剔除。 5. 余下数据重复操作至无异常数据 格拉布斯准则可以检验较少的数据 狄克逊准则 亦称Q检验法,狄克逊准则是通过极差比判定和剔除异常数据。 该准则认为异常数据应该是最大数据和最小数据,因此该其基本方法是将数据按大小排队,检验最大数据和最小数据是否异常数据。 将实验数据xi按值的大小排成顺序统计量 x(1),≤x(2),≤ x(3),……≤x(n) 计算f0值 或 根据狄克逊系数表将f0与f(n, α)进行比较 如果f0 f(n,α),说明x(n)离群远,则判定该数据为异常数据,予以剔除。 狄克逊系数f(n,a)与f0的计算公式 t检验准则(罗马诺夫斯基准则) t检验准则与狄克逊准则相似,

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档