- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
揭开全体数据的神秘面纱〔上〕
亿推英文Wiki推广,英文维基站推广,亿推英文书签推广,英文bookmark推广,亿推英文维基外链推广,英文书签外链推广,亿推标准化英文推广,TuiGuang123
亿推拥有超过10万个英文新闻、英文软文发布合作站,超过3000个国外博客、英文资讯网站链接资源,超过500万篇英文文章可提供关键字链接发布。
在《大数据时代》中,迈尔-舍恩伯格告诉我们大数据时代的第一大特征就是“不是随机样本,而是全体数据”。我们在上篇通过分析“北京地区吃过麦当劳的人数”这样一个最简单的信息需求,说明即使在大数据时代,随机样本分析也是必不可少的,因为现实中并不是对每个问题研究都具备一个可用的全体数据。
本文专门谈论所谓全体数据,为大家揭开全体数据的神秘面纱。
何为全体数据?
在《大数据时代》一书中,全体数据是与随机样本相对立的概念。迈尔大叔这样描述道:“首先,要分析与某事相关的所有数据,而不是依靠分析少量的数据样本。”因而,全体数据明白无误地就是“所有的相关数据”。
如果我们想要知道“北京地区有多少人吃过麦当劳”,这个全体数据就应该是北京地区所有人吃麦当劳的情况。很遗憾,我们知道这个全体数据是不存在的。
看看《大数据时代》书中全体数据的一个案例:艾伯特-拉斯洛·巴拉巴西和他的同事想研究人与人之间的互动。于是他们调查了四个月内所有的移动通信记录——当然是匿名的,这些记录是一个为全美五分之一人口提供服务的无线运营商提供的。这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。通过观察数百万人的所有通信记录,我们可以产生也许通过任何其他方式都无法产生的新观点。
迈尔大叔的这个全体数据是“一个为全美五分之一人口提供服务的无线运营商提供的”“四个月内所有的移动通信记录”。啥意思?说白了,就是一家移动公司四个月的通信记录。令人不解的是,虽然这仅仅是全美1/5人口四个月的通信记录,迈尔大叔却说这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。”
“全社会”与“全美1/5人口”,“样本=总体”与“四个月内所有的移动通信记录”,其间如何联系在一起?
还有,如果四个月的数据是全体数据,那三个月或者两个月的数据算不算全体数据呢?
看来貌似简单的全体数据,在迈尔大叔这里也不是那么简单。
全体数据的前世今生
上面案例中涉及的全体数据,实质上就是一家移动运营商数据库中四个月的通信数据。从《大数据时代》中对全体数据的诸多应用可以看到,迈尔大叔所说的全体数据,实际上就是我们通常所说的数据库数据。
“全体”或许只是指包含了数据库中所有的记录。
即使在互联网流行之前,因为有了计算机以及数据库技术,人类已经开始数据的记录和累积。特别是一些特殊的行业如银行、电信等,顾客的购买记录最先被完整地记录下来,从而构成了迈尔大叔所谓的全体数据。
这绝对是小数据时代的故事。也就是说,所谓全体数据并不是大数据时代的产物,全体数据在小数据时代就已经普遍存在了。
对所谓全体数据的分析以及基本的统计分析方法也是小数据时代的普遍现象。
被人们津津乐道的食品超市啤酒搭着尿布一起卖的故事,其数据来源甚至可能都不是所谓全体数据,因为食品超市并没有强求每个消费者都要注册后才能购买。
全体数据并不是我们想象的那样是“所有的数据”,甚至也不是迈尔大叔想象的那样是“所有相关的数据”。全体数据依旧是部分数据,比如说只包含了一家公司的顾客数据。全体数据依旧是取样数据,比如说上面案列中的四个月的取样。
谁说取样必须只是随机取样呢?
全体数据的分析误差
迈尔大叔对随机样本生气的一个主要原因,就是基于随机取样的分析与真实情况有统计误差,不准确。那么,有了全体数据,我们的分析结果就一定没有误差了吗?
假定我们确实有关于北京地区吃麦当劳的全体数据。是的,如果有了所谓的全体数据,关于单个变量的分析结果确实没有统计上的误差,实际上此分析也根本用不到统计学的概念。可是,我们花那么大精力搞一个全体数据,肯定不只是计算一些百分比,或者进行一些简单的单元分析。我们要用这个全体数据来做更多的事,比如说预测哪些顾客下次来会购买巨无霸。分析师会给我们一批顾客名单,告诉我们:这些顾客75%的可能下次购买巨无霸。
75%的可能?也就是说这个顾客还有25%的可能下次不买巨无霸。这就是分析误差。
事实是,除了单个变量的计算(对全体数据来说不是统计分析),全体数据在做任何统计分析时,分析结果都是概率性的,都有统计意义上的误差。
可是《大数据时代》给读者的印象是,只要用了全体数据,你就不用再担心误差了。
全体数据的取样
根据《大数据时代》,用了全体数据,我们就再也不需要取样了。事实果然如此吗?
有意思的是,在上面迈尔大叔给我们提供的全体数据分析的案例里,研究人员只取了数据库里4个月的数据。为什么只是4个月的数据?难道该企业的数据库
文档评论(0)