论数据分组的误导作用.pdfVIP

下载本文档

11
0
约1.13万字
约 5页
2017-11-10 发布于上海
举报

论数据分组的误导作用.pdf

论数据分组的误导作用

第4期总第198期商业经济与管理 No．4Vd．198 ECONoMICS 2008年4月 JoURNALoFBUSINESS Apr．2008 论数据分组的误导作用张皓1，黄向阳2 (1．中国人民大学书报资料中心，北京100086；2．中国人民大学统计学院，北京100872) 摘要：对数据分组之后再进行处理是一种常见方法，但是这种方法可能产生错误结果。本文搜集了几个实际的数据分析案例，说明对数据的分析可以是任意的，但是对分析结果的解释必须受制于研究对象和周围条件。本文结合案例提出了一些避免分组陷阱的手段，还提供了理解辛普森悖论的一个角度。关键词：辛普森悖论；数据分组；统计方法的滥用中图分类号：C8 文献标识码：A 文章编号：1000—2154(2008)04—0062—05 一、引言科学方法的基本前提是对事物进行分类，然后假设类之间存在着相对稳定的联系，作为统计学家的K．皮尔逊在《科学的规范》中指出“事实的分类、对它们的关联和相对意义的认识是科学的功能”。统计学家所发展起来的统计方法充分体现了这一观点，1980年代之后成熟起来的数据挖掘技术仍然认为自己的主要任务是分类和关联分析。从逻辑上来看，某种程度的分类或者汇总是不可避免的，但是把研究对象分为若干类在逻辑上又必然存在缺陷。要保证分类的合理性，就必须满足数据的同质性，而同质性假设在最好的情况下是一种近似，在比较糟糕的情况下则是研究者个人判断的结果。社会学家由于意识到自己研究的是复杂现象，所以从18世纪起就一直反对使用数据同质性假设。最典型的例子是对“平均人”概念的看法。虽然平均人可以反映部分现实，但它所掩盖的可能多于所能揭示的东西，而且缺乏现实生活中的对应物。尽管存在种种有力的反对意见，以分类为依据的数据分组还是逐渐成为统计分析的基本程序之一。而对于分组方法的认真检视则逐渐淡出统计学家的视野，相关论述已经很罕见了，但陈希孺在《数理统计学简史》中还是用了几页篇幅回顾了有关问题∞并指出…：开维伯格和科洛特……揭示了将统计方法用于社会问题的困难所在，即如何决定所研究的总体的细分程度，以便可以通过数据资料对问题进行有意义的分析。这一点不仅在当时，即便在今日，也不能说有了完满的解决。陈希孺特别指出这个问题从根本上说不是一个统计或数学的问题，可能正因为它是一个更基本的问题，所以即使在统计学方法高度发展的20世纪，分组不当还在不断引发各种问题。而要深入理解分组方式收稿日期：2008一01—23 作者简介：张皓(1968一)，北京人，中国人民大学书报资料中心经济编辑室主任，编辑，主要从事编辑学，经济统计研究；黄向阳(1970一)，湖北黄梅人，中国人民大学统计学院副教授，经济学博士，主要从事风险管理和精算研究。 ①从142页到149页的主要内容是讨论19世纪的社会学研究如何处理数据的同质性问题。万方数据第4期张皓，黄向阳：论数据分组的误导作用 63 的影响。也要超越统计学的边界才有可能。分组的实现方法一般是，首先按照一个或多个分类指标对数据进行分组，然后分析各组数据的统计指标，由此形成的交叉表是进行二维或者高维列联分析的基础数据。从方法依据来看，这是进行数据压缩的具体手段之一，而数据压缩是统计方法的基本特点；从使用效果来看，列联表和几个简单百分比在结果的呈现方面具有很强的说服力，因此也得到广泛使用。由于这两个原因，数据分组变成了基本统计方法之一。但是这种做法往往隐藏着很多的陷阱。首先，数据压缩必然引起种种后患，比如信息损失、指标失真或者虚假相关，如果考虑不周就很有可能得到似是而非的分析结论。其次，这种做法本身具有误导能力，可能被有心人士用来操纵数据的解读，从而导致统计方法的滥用。本文搜集了几个数据分析中的实例，说明了汇总数据可能造成误导，并指出了一些解决的方法。一般来说，对数据的处理可以是任意的，但是赋予处理结果

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

论数据分组的误导作用.pdfVIP