- 11
- 0
- 约1.13万字
- 约 5页
- 2017-11-10 发布于上海
- 举报
论数据分组的误导作用
第4期总第198期 商业经济与管理 No.4Vd.198
ECONoMICS
2008年4月 JoURNALoFBUSINESS Apr.2008
论数据分组的误导作用
张 皓1,黄向阳2
(1.中国人民大学书报资料中心,北京100086;2.中国人民大学统计学院,北京100872)
摘要:对数据分组之后再进行处理是一种常见方法,但是这种方法可能产生错误结果。本
文搜集了几个实际的数据分析案例,说明对数据的分析可以是任意的,但是对分析结果的解释必须
受制于研究对象和周围条件。本文结合案例提出了一些避免分组陷阱的手段,还提供了理解辛普
森悖论的一个角度。
关键词:辛普森悖论;数据分组;统计方法的滥用
中图分类号:C8 文献标识码:A 文章编号:1000—2154(2008)04—0062—05
一、引言
科学方法的基本前提是对事物进行分类,然后假设类之间存在着相对稳定的联系,作为统计学家的K.
皮尔逊在《科学的规范》中指出“事实的分类、对它们的关联和相对意义的认识是科学的功能”。统计学家所
发展起来的统计方法充分体现了这一观点,1980年代之后成熟起来的数据挖掘技术仍然认为自己的主要任
务是分类和关联分析。从逻辑上来看,某种程度的分类或者汇总是不可避免的,但是把研究对象分为若干
类在逻辑上又必然存在缺陷。要保证分类的合理性,就必须满足数据的同质性,而同质性假设在最好的情
况下是一种近似,在比较糟糕的情况下则是研究者个人判断的结果。社会学家由于意识到自己研究的是复
杂现象,所以从18世纪起就一直反对使用数据同质性假设。最典型的例子是对“平均人”概念的看法。虽然
平均人可以反映部分现实,但它所掩盖的可能多于所能揭示的东西,而且缺乏现实生活中的对应物。尽管
存在种种有力的反对意见,以分类为依据的数据分组还是逐渐成为统计分析的基本程序之一。而对于分组
方法的认真检视则逐渐淡出统计学家的视野,相关论述已经很罕见了,但陈希孺在《数理统计学简史》中还
是用了几页篇幅回顾了有关问题∞并指出…:
开维伯格和科洛特……揭示了将统计方法用于社会问题的困难所在,即如何决定所研究的总体的细分
程度,以便可以通过数据资料对问题进行有意义的分析。这一点不仅在当时,即便在今日,也不能说有了完
满的解决。
陈希孺特别指出这个问题从根本上说不是一个统计或数学的问题,可能正因为它是一个更基本的问
题,所以即使在统计学方法高度发展的20世纪,分组不当还在不断引发各种问题。而要深入理解分组方式
收稿日期:2008一01—23
作者简介:张皓(1968一),北京人,中国人民大学书报资料中心经济编辑室主任,编辑,主要从事编辑学,经济统计研究;黄
向阳(1970一),湖北黄梅人,中国人民大学统计学院副教授,经济学博士,主要从事风险管理和精算研究。
①从142页到149页的主要内容是讨论19世纪的社会学研究如何处理数据的同质性问题。
万方数据
第4期 张皓,黄向阳:论数据分组的误导作用 63
的影响。也要超越统计学的边界才有可能。
分组的实现方法一般是,首先按照一个或多个分类指标对数据进行分组,然后分析各组数据的统计指
标,由此形成的交叉表是进行二维或者高维列联分析的基础数据。从方法依据来看,这是进行数据压缩的
具体手段之一,而数据压缩是统计方法的基本特点;从使用效果来看,列联表和几个简单百分比在结果的呈
现方面具有很强的说服力,因此也得到广泛使用。由于这两个原因,数据分组变成了基本统计方法之一。
但是这种做法往往隐藏着很多的陷阱。首先,数据压缩必然引起种种后患,比如信息损失、指标失真或者虚
假相关,如果考虑不周就很有可能得到似是而非的分析结论。其次,这种做法本身具有误导能力,可能被有
心人士用来操纵数据的解读,从而导致统计方法的滥用。本文搜集了几个数据分析中的实例,说明了汇总
数据可能造成误导,并指出了一些解决的方法。一般来说,对数据的处理可以是任意的,但是赋予处理结果
您可能关注的文档
最近下载
- 25个作业女性化教程.docx VIP
- 2025年九江职业大学单招职业适应性考试题库审定版.docx VIP
- 2025年九江职业大学单招职业适应性考试题库带答案详解(精练).docx VIP
- 2025年九江职业大学单招职业技能考试题库带答案.docx VIP
- 沙金矿合作合同10篇.docx VIP
- 2025年甘肃省公务员考试《申论》试题及答案解析(县乡卷.docx VIP
- PS-640U系列保护测控装置使用说明书_V4.00.pdf VIP
- 专题复习初中常见离子的检验.ppt
- 2025年人教版小学四年级(下)奥林匹克数学竞赛测试考试卷(附答案解析).docx
- 2025年专利代理师资格考试真题及答案.docx VIP
原创力文档

文档评论(0)