- 22
- 0
- 约7.3千字
- 约 17页
- 2018-01-04 发布于江西
- 举报
2大数据时代-思维变革---1更多.ppt
2. 大数据时代的思维变革 1. 大数据时代的思维变革——更多 “更多”——不是随机样本,而是全体数据 当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。 让数据“发声” 小数据时代的随机采样,最少的数据获得最多的信息 全数据模式,样本=总体 大数据与三个重大的思维转变有关,这三个转变是相互联系和相互作用的。 首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。 其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。 最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。 让数据“发声” 利用所有的数据,而不再仅仅依靠一小部分数据。 数据的收集 过去,因为记录、储存和分析数据的工具不够好,我们只能收集少量数据进行分析,这让我们一度很苦恼。 数据的处理工具 为了让分析变得简单,我们会把数据量缩减到最少。这是一种无意识的自省:我们把与数据交流的困难看成是自然的,而没有意识到这只是当时技术条件下的一种人为的限制。 统计学:用尽可能少的数据来证实尽可能重大的发现。 小数据时代的随机采样 在过去,只有教会或者政府才拥有大规模收集和分类数据的能力。 人口普查——一项耗资且费时的事情 1096年英国 威廉一世 《末日审判书》 三百多年前,一个名叫约翰·格朗特John Graunt的英国缝纫用品商提出了一个很有新意的方法。他采用了一个新方法推算出鼠疫时期伦敦的人口数,这种方法就是后来的统计学。 古罗马在拥有数十万人口的时候每5年一次 美国宪法规定每10年一次 1880年,8年 1890年,预计13年,穿孔卡片用了1年 事实证明,问题的关键是选择样本时的随机性 小数据时代的随机采样 统计学家们证明: 采样分析的精确性随着采样随机性的增加而大幅度提高 与样本数量的增加关系不大。 当样本数量达到了某个值之后,我们从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。 小数据时代的随机采样 当收集和分析数据都不容易时,随机采样就成为应对信息采集困难的办法。 人口普查 商品质量监管 …… 小数据时代的随机采样 随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但是这只是一条捷径,是在不可收集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。 实例:总统大选(以固定电话为基础的民调) DNA分析 由于技术成本大幅下跌以及在医学方面的广阔前景,个人基因排序成为了一门新兴产业。 2012年,基因组解码的价格跌破1000美元,这也是非正式的行业平均水平。 DNA分析 从2007年起,硅谷的新兴科技公司23andme就开始分析人类基因,价格仅为几百美元。 这可以揭示出人类遗传密码中一些会导致其对某些疾病抵抗力差的特征,如乳腺癌和心脏病。 公司对某人的一小部分DNA进行排序,标注出几十个特定的基因缺陷。 最后,23andme只能回答其标注过的基因组表现出来的问题。 DNA分析 只研究样本而不是整体,有利有弊:能更快更容易地发现问题,但不能回答事先未考虑到的问题。 大数据与乔布斯的癌症治疗 乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。 全数据模式,样本=总体 在信息处理能力受限的时代,世界需要数据分析,却缺少用来分析所收集数据的工具,因此随机采样应运而生。 采样的目的就是用最少的数据得到最多的信息。 全数据模式,样本=总体 大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。 Xoom与跨境汇款异常交易报警 谷歌流感趋势 “相扑”中的消极比赛 列维特等人 11年 64000场摔跤比赛 随机采样使得数字时代之前的大量数据分析变得可能。 人与人之间的互动 艾伯特-拉斯洛·巴拉巴西等人 四个月所有移动通信记录 无线运营商:为全美1/5人口 百万人 结果: 谁能想象一个在关系网内有着众多好友的人的重要性还不如一个只是与很多关系网外的人有联系的人呢? 小结 我们总是习惯把统计抽样看做文明得以建立的牢固基石,就如同几何学定理和万有引力定律一样。 统计抽样其实只是为了在技术受限的特定时期,解决当时存在的一些特定问题而产生的。 如今,技术环境已经有了很大的改善。在某些特定的情况下,我们依然可以使用样本分析法,但这不再是我们分析数据的主要方式。 “大数据”全在于发现和理解信息内容及信息与信息之间的关系,然而直到最近,我们对此似乎还是难以把握。IBM的
原创力文档

文档评论(0)