统计大数据的“狂想曲”.pdf

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

编融’敬曲

1数据时代背景下的统计学

在现代统计学还处于黎明期的1903年,威尔斯何做出这样的预言,我们无从得知。但是在接近100年后的今

天,统计学的思考方法对我们来说毫无疑问已经成与阅读能力同样重要的能力。就好像一个没有阅读能力的人在现代

社会寸步难行,没有统计学思维的人同样难以在现代社会生存。我们生活在大数据时代。高性能计算机和全球网络的强

大组合正在得到人们的赞美甚至推崇。专家不断告诉我们,他们发现了一种新的能力,可以对海量数据进行筛查并发现

真相,这将政府、商业、金融、医疗、法律以及我们的日常生活带来一场革命。我们可以做出更明智的决策,因强

大的计算机可以对数据进行分析,发现重要的结论。

2由于认知性错误,我们很容易受到各种统计性骗局

的懵逼

在早期,癌症能否被治愈?也许可以。但通常使用的据说最能证明这一点的数据其实并不能证明这一点。康涅狄

格州肿瘤研究所挂号处那些数据记录可一直追溯到1935年,这些数据似乎显示,从1935年到1941年间,癌症术后5

年的存活率大幅提高。其实,这些数据记录从1941年才开始采集,在此之前的所有数据都是追查所得。许多病人早已

离开了康涅狄格州,他们是否尚在人世不得而知。按照医学记者莱昂纳德•恩格尔的说法,由此而导致的偏差足以解释术

后存活率何会出现大幅提高的背后原因。了更具价值,一份基于样本的报告必须使用一个具备代表性的样本,该样

本必须排除产生偏差的任何可能性。这正是耶鲁大学毕业生调查数据不具价值的原因,也是许多报纸和杂志内容缺乏实

质意义的原因。一位心理医生曾写报告说,其实每个人都是神经质的。抛开使用“神经质”一词会破坏该词所具有的意义

不谈,先看看这位医生的样本吧。也就是说,这位心理医生的观察对象都是哪些人?原来,这一富有“启发性”的结论是

他观察自己的病人得来,这些病人与普通人样本有着天壤之别。如果一个人精神正常,我们的这位医生根本就见不到他。

以这种方式再仔细看看你所读到的东西,你就可以避免相信许多似是而非的东西。还要记住:导致偏差的显性原因和隐

性原因都有可能轻易摧毁一个样本的可靠性。也就是说,即使找不到明显的偏差来源,但只要在某处可能存在偏差,你

就要对结果保持一定的怀疑。

3统计调查的数据会出现偏差?

调查人员的构成往往会以一种微妙的方式影响到调查结果。第二次世界大战期间,美国国家民意研究中心派出了

两组调查员,一组由白人构成,另一组由黑人构成,对南方一个城市中的500个黑人进行三个问题的调查。第一个问

题是:“如果日本战胜美国,黑人在美国的待遇会得到改善还是会变得更糟?”黑人调查组的结果显示他们的调查对象中

9%的人认是“得到改善”,而白人调查组的调查结果显示只有2%的人这样认。黑人调查组的结果中有25%的人认

黑人的待遇会更加糟糕,而白人调查组的结果则是45%O第二个问题是将第一个问题中的“日本”替换成纳粹”,对这一

问题调查所得结果和第一个问题的调查结果相近。第三个问题旨在探求被调查者对前两个问题的真实态度。“打败轴心国

与改进国内的民主制度二者相比,您认哪个更重要?”黑人调查组得出的结果是39%的人支持“打败轴心国”,而白人调

查组的结果则是62%O这就是受未知因素影响而导致的偏差。可能最有影响力的因素是在民意调查时,人们普遍都有一

种说好话的倾向,这种倾向在阅读民意调查时往往应该被考虑进来。在战时回答一个暗含对国家是否忠诚的问题时,南

方黑人对白人的回答都是一些冠冕堂皇的话,而不是他们内心的真实想法,这不是很正常吗?此外,不同的调查员可能

会选择不同的群体进行调查,也可能是造成偏差的原因。在任何情况下,调查结果都明显带有一定的偏差,因此这些调

查毫无价值。你自己可以判断一下有多少民意调查的结论是带有偏差且毫无价值的,但是却没有什么有效的办法能避免。

一般而言,民意调查都会带有特定方向的偏差。如果你对这些民意调查的结果有所质疑,你可以收集有力证据来证明,

比如《文学摘要》的方向错误。《文学摘要》的错误在于它选择了与普通人相比生活更宽裕、受过良好教育、消息灵

通、警惕性高、着装雅致、行保守且爱好较固定的群体作调查对象。事实正如我们所见,完全没有必要操纵一场

民意调查,也不用了制造一种假象而刻意扭曲调查结果。如果样

文档评论(0)

文档之家 + 关注
实名认证
内容提供者

文档创作者

1亿VIP精品文档

相关文档