- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
本福特定律在提高统计调查数据质量中的应用
国家统计局云南调查总队 余云波 段倩 李钦
摘要:本福特定律揭示了自然形成的数据中,数字 1-9 出现的概率,近年
来在国外被成功应用于异常数据的检测。在国内首次应用本福特定律,实现了一
种利用多重交叉分组发现异常数据的具体方法,完成了对数据分析软件的优化设
计工作,能够对海量数据进行快速、准确的分析检测,获得了符合实际的检测结
果。以云南城镇住户调查的住户日记账为例,通过距离差和相关系数来发现统计
调查中的异常数据。使用该软件准确定位了出现异常数据的地区,与实际数据质
量检查中的结果非常吻合;首次发现城镇住户国家调查点和地方调查点的数据质
量存在重大差异,并分析了相关的原因;发现了导致异常数据的人群特征;揭示
了存在数据异常时对应的设计不当的指标,发现了故意把数据压低(瞒报)的第
一位数的特征。总结出基于本福特定律提高统计调查数据质量的方法和应用范
围,并指出了本福特定律的局限性。该软件稍加修改即可成为通用软件,能应用
于绝大部分统计和调查数据。
关键词:本福特定律 统计调查 造假 异常数据 抽样调查 检验
一、引言
统计监督被明确写进了我国的统计法,越来越多的统计调查数据以各种形式
成为各级政府政绩的重要组成部分,统计监督的作用被不断强化。在这样的情况
下,统计数据不断受到社会各界的质疑,人们怀疑统计调查数据是否受到了各级
政府的干扰。
在统计调查系统内部,基层统计员、调查员是否亲自进行了调查?调查数
据有没有受到基层政府的干扰?调查对象是否如实填报了调查内容?在城镇住
户调查中,调查员普遍反映收入越高,配合程度越低,这对填报质量有影响吗?
一份调查问卷,哪些问题由于设计的原因,不容易得到准确结果?等等,这些问
题一直困扰着统计调查系统的工作人员。本文尝试用第一位数字的分布规律来解
决这些问题。
直至今天,大部分人都想当然地认为,对一个包含大量数据的数据集而言,
数字 1-9 出现在每个数据的第一位的概率应该是大致相等的,但本福特定律完
1
全颠覆了这个想法。Simon Newcomb (1881)发现, 1-9 出现在数字的第一位
的概率是不相等的,其概率密度可由下面的经验公式给出:
1
F (d ) log (1 ) , 为1-9 的基数。
d
10
d
Frank Benford (1938)对Newcomb 的发现进行了实证分析,他收集了种类
繁多的数据集,包括河流的流域面积、人口出生率、死亡率、物理和化学常数、
美国棒球俱乐部的统计数据,甚至出现在《读者文摘》文章中的数字,以及其他
很多数据集,统计分析后发现,这些数据都能很好地符合Newcomb 提出的第一
位数的分布规律。由于本福特的工作,第一位数的分布规律逐渐被越来越多的人
了解,这个规律也被命名为本福特定律。
随后本福特定律的许多奇异特性也被人们不断发现,首先是尺度不变性和基
数不变性(Raimi 1976 ,Pietronero et al. 2001 ),这意味着乘以一个数,常见的如
数量乘以价格,或者改变度量单位,新得到的数据仍然满足本福特定律。本福特
定律还具有令人难以想象的“鲁棒”性(Hill1995 ,1998),虽然不是所有的数据
都符合本福特定律,但这些不符合本福特定律的数据的混合集,或者随机抽选这
些数据构成的混合集,却能很好地符合本福特定律。
近年来,本福特定律开始被大量应用于数据异常点的发现、伪造数据的检测。
既然一个“正常的”数应该服从本福特定律,那么很自然地,对本福特定律的偏
离就意味着某种不规则的现象,很可能是人为的造假。Nigrini(1999),Durtschi、
Hillison 和Pacini (2004)用本福特定律简单有效地发现了财务数据中假账。
George 和Laura (2007 )用本福特定律发现抽样调查数据存在的问题,分析了指
标设计缺陷导致的数据异常。本福特定律还被用于发现竞选经费中的营私舞弊和
欺骗造假 (Cho Gaines,2007 ),等等。
本福特定律具备:(1)适用范围广,绝大部分统计调查数据都满足本福特
定律;(2 )自我报告数据的精确性。本福特定律的发
文档评论(0)