论数据分组的误导作用.pdfVIP

  • 11
  • 0
  • 约1.13万字
  • 约 5页
  • 2017-11-10 发布于上海
  • 举报
论数据分组的误导作用

第4期总第198期 商业经济与管理 No.4Vd.198 ECONoMICS 2008年4月 JoURNALoFBUSINESS Apr.2008 论数据分组的误导作用 张 皓1,黄向阳2 (1.中国人民大学书报资料中心,北京100086;2.中国人民大学统计学院,北京100872) 摘要:对数据分组之后再进行处理是一种常见方法,但是这种方法可能产生错误结果。本 文搜集了几个实际的数据分析案例,说明对数据的分析可以是任意的,但是对分析结果的解释必须 受制于研究对象和周围条件。本文结合案例提出了一些避免分组陷阱的手段,还提供了理解辛普 森悖论的一个角度。 关键词:辛普森悖论;数据分组;统计方法的滥用 中图分类号:C8 文献标识码:A 文章编号:1000—2154(2008)04—0062—05 一、引言 科学方法的基本前提是对事物进行分类,然后假设类之间存在着相对稳定的联系,作为统计学家的K. 皮尔逊在《科学的规范》中指出“事实的分类、对它们的关联和相对意义的认识是科学的功能”。统计学家所 发展起来的统计方法充分体现了这一观点,1980年代之后成熟起来的数据挖掘技术仍然认为自己的主要任 务是分类和关联分析。从逻辑上来看,某种程度的分类或者汇总是不可避免的,但是把研究对象分为若干 类在逻辑上又必然存在缺陷。要保证分类的合理性,就必须满足数据的同质性,而同质性假设在最好的情 况下是一种近似,在比较糟糕的情况下则是研究者个人判断的结果。社会学家由于意识到自己研究的是复 杂现象,所以从18世纪起就一直反对使用数据同质性假设。最典型的例子是对“平均人”概念的看法。虽然 平均人可以反映部分现实,但它所掩盖的可能多于所能揭示的东西,而且缺乏现实生活中的对应物。尽管 存在种种有力的反对意见,以分类为依据的数据分组还是逐渐成为统计分析的基本程序之一。而对于分组 方法的认真检视则逐渐淡出统计学家的视野,相关论述已经很罕见了,但陈希孺在《数理统计学简史》中还 是用了几页篇幅回顾了有关问题∞并指出…: 开维伯格和科洛特……揭示了将统计方法用于社会问题的困难所在,即如何决定所研究的总体的细分 程度,以便可以通过数据资料对问题进行有意义的分析。这一点不仅在当时,即便在今日,也不能说有了完 满的解决。 陈希孺特别指出这个问题从根本上说不是一个统计或数学的问题,可能正因为它是一个更基本的问 题,所以即使在统计学方法高度发展的20世纪,分组不当还在不断引发各种问题。而要深入理解分组方式 收稿日期:2008一01—23 作者简介:张皓(1968一),北京人,中国人民大学书报资料中心经济编辑室主任,编辑,主要从事编辑学,经济统计研究;黄 向阳(1970一),湖北黄梅人,中国人民大学统计学院副教授,经济学博士,主要从事风险管理和精算研究。 ①从142页到149页的主要内容是讨论19世纪的社会学研究如何处理数据的同质性问题。 万方数据 第4期 张皓,黄向阳:论数据分组的误导作用 63 的影响。也要超越统计学的边界才有可能。 分组的实现方法一般是,首先按照一个或多个分类指标对数据进行分组,然后分析各组数据的统计指 标,由此形成的交叉表是进行二维或者高维列联分析的基础数据。从方法依据来看,这是进行数据压缩的 具体手段之一,而数据压缩是统计方法的基本特点;从使用效果来看,列联表和几个简单百分比在结果的呈 现方面具有很强的说服力,因此也得到广泛使用。由于这两个原因,数据分组变成了基本统计方法之一。 但是这种做法往往隐藏着很多的陷阱。首先,数据压缩必然引起种种后患,比如信息损失、指标失真或者虚 假相关,如果考虑不周就很有可能得到似是而非的分析结论。其次,这种做法本身具有误导能力,可能被有 心人士用来操纵数据的解读,从而导致统计方法的滥用。本文搜集了几个数据分析中的实例,说明了汇总 数据可能造成误导,并指出了一些解决的方法。一般来说,对数据的处理可以是任意的,但是赋予处理结果

文档评论(0)

1亿VIP精品文档

相关文档