- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据时代和大数据背景下的科研转变 大数据的概念 ? 数据海量化和数字化 数据量的爆发式、几何式增长 :从人类文明出现到 2019 年, 人类总共才产生了 5EB ( ExaBytes , 1EB=10 亿 GB )的数据, 但是当前的人类两天内就创造出了相同的数据量,全球 90% 的数据都是在过去两年中生成的,到 2020 年全球数据 使用量将大概需要 376 亿个 1TB 的硬盘进行存储。 越来越多的数据存储为数字数据 :在 2000 年,数字存储信 息仍只占全球数据量的四分之一;而在 2019 年,所有数据 中只有 7% 是存储在报纸、书籍、图片等媒介上的模拟数 据,其余全部是数字数据;到 2019 年,世界上存储的数据 预计能达到约 1.2ZB ( 1ZB=1000EB ),其中非数字数据只 占不到 2% 。 ? 数据分析和管理效率的大大提高 模拟时代的数据收集和分析极其耗时耗力,新问题的出现 通常要求我们重新收集和分析数据。 数据数字化和云计算技术的发展使得数据管理效率又向前 迈出了重要的一步。数字化将模拟数据转换成计算机可以 读取的数字数据,使得存储和处理这些数据变得既便宜又 容易,从而大大提高了数据管理效率。 大数据的 4V 特征 “高容量 (Volume) 、多样化 (Variety) 、快速化 (Velocity) 、价值密度低( Value )”就是“ 大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。 量 Volume 多样性 Variety 价值 Value 速度 Velocity 数据体量巨大 大数据的起始计量单位至少是 P ( 1000 个 T )、 E ( 100 万个 T )或 Z ( 10 亿个 T ) 数据的多样性 数据类型繁多(文本、图像、视频、机器数据、地 理位置信息等等) 大量的不相关信息 价值密度低 需要强大的计算技术进行“提纯” 数据产生和更新的频率快,处理速度快 ? 大数据时代的来临使人类第一次有机会和条件,在非常多 的领域和非常深入的层次获得和使用全面数据、完整数据 和系统数据, 深入探索现实世界的规律, 获取过去不可 能获取的知识, 得到过去无法企及的商机。 “数据,已经渗透到当今每一个行业和业务职能领域,成为重要的 生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率 增长和消费者盈余浪潮的到来。” ——全球知名咨询公司麦肯锡 大数据时代数据处理思维的三个转变 ? 全数据模式,而不再依赖于随机抽样 很长一段时间以来,准确统计和分析大量数据对我们而言 都是一种挑战,比如人口普查。通常我们只能收集少量数 据进行分析,称之为抽样分析。大数据是建立在掌握所有 数据,至少是尽可能多的数据的基础上的,使我们能够更 清楚地看到了样本无法揭示的细节信息并进行新的分析。 为了赢得与癌症的斗争,史蒂夫·乔布斯曾花费 数十万美元为自己 DNA 测序,得到了包括整个基 因密码的数据文档。这样,史蒂夫·乔布斯的医 生们能够基于乔布斯的特定基因组成,按所需效 果用药。如果癌症病变导致药物失效,医生可以 及时更换另一种药,最终这种方式帮助乔布斯延 长了好几年的生命。 乔布斯开玩笑说:“我要么是第一个通过这种方 式战胜癌症的人, 要么就是最后一个因为这种方 式死于癌症的人。 ” ? 不再热衷于追求精确度 追求精确度的思维方式适用于掌握“小数据量”的情况, 此时必须确保记录下来的数据尽量精确。因为收集信息的 有限意味着细微的错误会被放大,甚至有可能影响整个结 果的准确性。拥有了大数据, 我们不再需要过于追究细 节,只要掌握大体的发展方向即可。 比如计算小商品的 营业额和计算国民生产总值。 ? 不再执著于寻找因果关系 长久以来,我们的研究总是热衷于追寻现象之间的因果关 系。而在大数据时代,我们无须再紧盯事物之间的因果关 系,应该寻找事物之间的相关关系。 如果数百万条电子医疗记录显示橙汁和阿司匹林的特定组 合可以治疗癌症,那么找出具体的药理机制就没有这种治 疗方法本身来得重要。 2019 年, 美国个人消费信用评估公司 FICO 提出了“遵从 医嘱评分”——它分析一系列的变量来确定这个人是否会 按时吃药, 包括一些看起来有点怪异的变量。 比方说, 一个人在某地居住了多久,这个人结婚了没有,他多久换 一个工作以及他是否有私家车。这个评分会帮助医疗机构 节省开支,因为它们会知道哪些人需要得到它们的用药提 醒。
文档评论(0)