统计大数据的“狂想曲”.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

统计大数据的“狂想曲”

1数据时代背景下的统计学

在现代统计学还处于黎明期的1903年,威尔斯为何做出这样的预言,我们无从得知。但是在接近100年后的今天,统计学的思考方法对我们来说毫无疑问已经成为与阅读能力同样重要的能力。就好像一个没有阅读能力的人在现代社会寸步难行,没有统计学思维的人同样难以在现代社会生存。我们生活在大数据时代。高性能计算机和全球网络的强大组合正在得到人们的赞美甚至推崇。专家不断告诉我们,他们发现了一种新的能力,可以对海量数据进行筛查并发现真相,这将为政府、商业、金融、医疗、法律以及我们的日常生活带来一场革命。我们可以做出更明智的决策,因为强大的计算机可以对数据进行分析,发现重要的结论。

2由于认知性错误,我们很容易受到各种统计性骗局的懵逼

在早期,癌症能否被治愈?也许可以。但通常使用的据说最能证明这一点的数据其实并不能证明这一点。康涅狄格州肿瘤研究所挂号处那些数据记录可一直追溯到1935年,这些数据似乎显示,从1935年到1941年间,癌症术后5年的存活率大幅提高。其实,这些数据记录从1941年才开始采集,在此之前的所有数据都是追查所得。许多病人早已离开了康涅狄格州,他们是否尚在人世不得而知。按照医学记者莱昂纳德·恩格尔的说法,由此而导致的偏差足以解释术后存活率为何会出现大幅提高的背后原因。为了更具价值,一份基于样本的报告必须使用一个具备代表性的样本,该样本必须排除产生偏差的任何可能性。这正是耶鲁大学毕业生调查数据不具价值的原因,也是许多报纸和杂志内容缺乏实质意义的原因。一位心理医生曾写报告说,其实每个人都是神经质的。抛开使用“神经质”一词会破坏该词所具有的意义不谈,先看看这位医生的样本吧。也就是说,这位心理医生的观察对象都是哪些人?原来,这一富有“启发性”的结论是他观察自己的病人得来,这些病人与普通人样本有着天壤之别。如果一个人精神正常,我们的这位医生根本就见不到他。以这种方式再仔细看看你所读到的东西,你就可以避免相信许多似是而非的东西。还要记住:导致偏差的显性原因和隐性原因都有可能轻易摧毁一个样本的可靠性。也就是说,即使找不到明显的偏差来源,但只要在某处可能存在偏差,你就要对结果保持一定的怀疑。

3统计调查的数据会出现偏差?

调查人员的构成往往会以一种微妙的方式影响到调查结果。第二次世界大战期间,美国国家民意研究中心派出了两组调查员,一组由白人构成,另一组由黑人构成,对南方一个城市中的500个黑人进行三个问题的调查。第一个问题是:“如果日本战胜美国,黑人在美国的待遇会得到改善还是会变得更糟?”黑人调查组的结果显示他们的调查对象中9%的人认为是“得到改善”,而白人调查组的调查结果显示只有2%的人这样认为。黑人调查组的结果中有25%的人认为黑人的待遇会更加糟糕,而白人调查组的结果则是45%。第二个问题是将第一个问题中的“日本”替换成“纳粹”,对这一问题调查所得结果和第一个问题的调查结果相近。第三个问题旨在探求被调查者对前两个问题的真实态度。“打败轴心国与改进国内的民主制度二者相比,您认为哪个更重要?”黑人调查组得出的结果是39%的人支持“打败轴心国”,而白人调查组的结果则是62%。这就是受未知因素影响而导致的偏差。可能最有影响力的因素是在民意调查时,人们普遍都有一种说好话的倾向,这种倾向在阅读民意调查时往往应该被考虑进来。在战时回答一个暗含对国家是否忠诚的问题时,南方黑人对白人的回答都是一些冠冕堂皇的话,而不是他们内心的真实想法,这不是很正常吗?此外,不同的调查员可能会选择不同的群体进行调查,也可能是造成偏差的原因。在任何情况下,调查结果都明显带有一定的偏差,因此这些调查毫无价值。你自己可以判断一下有多少民意调查的结论是带有偏差且毫无价值的,但是却没有什么有效的办法能避免。一般而言,民意调查都会带有特定方向的偏差。如果你对这些民意调查的结果有所质疑,你可以收集有力证据来证明,比如《文学摘要》的方向错误。《文学摘要》的错误在于它选择了与普通人相比生活更为宽裕、受过良好教育、消息灵通、警惕性高、着装雅致、行为保守且爱好较为固定的群体作为调查对象。事实正如我们所见,完全没有必要操纵一场民意调查,也不用为了制造一种假象而刻意扭曲调查结果。如果样本的偏差与期望的结果一致,就能达到自动操纵的效果。

4选择性报告与谎报

《达拉斯晨报》的一位体育专栏作家度过了极为倒霉的一个星期,他在选择国家橄榄球联盟(NFL)比赛的获胜球队时猜对了1次,猜错了12次,还有一场比赛是平局。他写道:“理论上说,如果让达拉斯动物园里的一只狒狒观看14场NFL比赛的赛程,让它为每场比赛选择一支球队,它可以至少选出7支获胜球队。”第二个星期,拉达斯动物园里的大猩猩“坎达大帝”通过选择训练员手里的纸条进行了预测。结果,坎达猜对

文档评论(0)

151****8026 + 关注
实名认证
内容提供者

安全评价师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年09月13日上传了安全评价师

1亿VIP精品文档

相关文档