英特尔中国研究院吴甘沙:大数据技术发展的十个前沿方向(上).pdfVIP

英特尔中国研究院吴甘沙:大数据技术发展的十个前沿方向(上).pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
作者:吴甘沙 英特尔中国研究院院长 1、引言 “大数据”的发展与IT 产业其他领域的发展相辅相成,近年来互联网、移 动互联网、物联网、云计算和高性能计算等方面的高速发展从内涵上不断推动大 数据的技术演进,从外延上不断延展大数据的应用范围。 多年来,笔者有幸接触国内外学术界和工业界的大数据研究,2014 年底受 清华数据科学研究院之邀,把所见、所得、所思总结为《大数据的十个技术前沿》 的演讲。这次得到《大数据》杂志邀请,将其改为综述文章,并分为 3 期刊出, 分别为:膨胀宇宙、巴别之难、数据有价;软硬兼施、多快好省、天下三分、分 久必合;精益求精、人机消长、智能之争。笔者尝试从广度视角介绍大数据发展 前沿的一些技术趋势和实践。限于篇幅,论述可能不够严密,介绍可能不够深入, 唯愿抛砖引玉,激发同仁的思考和讨论。 2、十大前沿方向综述 大数据的根本出发点是指数思维方式。美国未来研究院(Institute of the Future )的发起人Roy Amara 出的 Amara 法则[1]认为人们往往会高估技术的 短期影响力,而低估技术的长期影响力。数据总量的积累正是如此,在经历很长 时间的缓慢增长之后,增长斜率会突然在一个临界点后急剧增加,变为爆炸式增 长。人们常说:“最近两年产生的数据量相当于人类历史上产生的数据量总和的 90% ”、“现在产生的数据总量每两年翻一番”。所有这些桥段都指向同一个现象 ——指数增长效应。 在过去 50 年里,指数效应的主要驱动力是摩尔定律。英特尔的联合创始人 之一戈登·摩尔(Gordon Moore )预言:每过 18 个月,晶体管数量翻一番,相 应地中央处理器(central processingunit,CPU )性能翻番,成本折半,功耗折 半。这种指数增长以链式反应的方式波及各个方面,如磁介质机械硬盘的容量增 长以及主干网带宽的增长,甚至是每美元能够买到的数码相机的像素数都呈现了 指数级的增长效应。最后,带来了数据的摩尔定律。 大数据发展的拐点已经到来,目前正在逐渐成为经济活动的主要承载者。数 据被称为资产、原油、原材料、货币,无论哪种形容的方法都不过分。据 IDC 预测:2020 年,70 亿人的数据化生存以及 500 亿个互联设备的感知、互联和智 能,将产生 35 ZB 的数据。1 ZB 相当于 1 000 EB,目前谷歌公司的数据量级为 数十 EB,这就意味着,一年将产生相当于 1000 个谷歌公司的数据量。 从数据中取出价值,海量数据才有存在的意义。大数据的生命周期和价值 链条通常可以分成 4 个阶段:数据生成、获取、存储和分析。目前主流的大数据 技术基本上是为了解决这 4 个问题。本文到的 10 个技术前沿,基本上都落到 这 4 个需求里,但总体来看又可以分成三大类。 ●解决数据本身的问题。分别为膨胀宇宙、巴别之难、数据有价。 ●解决大量的数据前下,如何能够实时计算的问题。这里涉及技术手段与 范式变迁,分为软硬兼施、多快好省、天下三分、分久必合。 ●分析如何能够取更好、更精确的价值问题。分别为精益求精、人机消长、 智能之争。 本期主要介绍膨胀宇宙、巴别之难、数据有价 3 个技术前沿。 3、前沿方向一:膨胀宇宙 面对数据量的爆炸,IDC 创造了一个名词——数据宇宙(datauniverse )。现 在单机硬盘的容量已在 TB 级别,而商业公司的数据存储量级从 PB 到 EB 再到 ZB,甚至再到下一步YB(美国国家安全局已经在犹他规划YB 级别的数据中心)。 与之对应的是存储技术的突飞猛进:存储介质技术发展、单服务器设计突破、分 布式文件系统创新以及形形色色的分布式数据库爆发。 3.1 不断涌现的新存储介质 近年来,新的存储介质不断涌现,在性能和成本上都取得了长足的进步,构 成了大数据发展的基础。 首先,磁介质的机械硬盘技术快速发展,单碟容量在 TB 级别翻倍增长。 其次,固态硬盘(solid state drives,SSD )获得了广泛普及,对革新存储体 系结构起到画龙点睛的作用,例如SA P HANA[2]架构。又如AWS 的SSD 存储 I2, Databricks 用它在 2014 年的 Daytona Gray 类 Sort Benchmark 夺魁(并列)。 第三,PCIe SS

文档评论(0)

AWREGES + 关注
实名认证
文档贡献者

ASFG RE TY6

版权声明书
用户编号:8015107061000004

1亿VIP精品文档

相关文档