设计和实现可扩展的分布式系统来处理海量数据.pdfVIP

设计和实现可扩展的分布式系统来处理海量数据.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Vol. 5 No.9/ Sep. 2011 设计和实现可扩展的分布式系统来 处理海量数据 张晓东 (由张晓东教授在国际云计算技术研讨会上的报告整理而成) 目前,我们所面对的一个严峻挑战,是如何有 长带来了以下4个新技术上的挑战: 效地处理规模越来越大、来势越来越猛的“数据海 1、现有的数据库技术不能适应海量数据: 啸”,又称“海量数据”(Big Data)。这样的数据借 助互联网的快速传递无所不在:从各种科学研究基 a) 2007年之前Facebook尚可以依赖第三方服务 地,到众多政府机构,还有各大商业企业公司。举 商提供的数据仓库来管理他们15TB的数据,现在 世界上最大社交网Facebook为例,现在每天有超过 每天Facebook要新增约70TB的压缩数据(4倍于 70 Terabytes (x1012 Bytes) 经过压缩后的新数据需 2007年的数据总量); 要存储、管理和分析。这个数据规模还在增加。主 b) 商业的并行数据库几乎少有能支持100+节点 流的商业和开源数据库系统,包括并行数据库系统, 的,而Yahoo!的 Hadoop 集群拥有 4000+ 节点, 在规模上、性能上、和费用上无法对付日益增大的 Facebook的数据仓库拥有2750+节点; 海量数据了。 2、海量数据涵盖了各种类型的数据,不同类型数据 我将介绍以MapReduce 为基础的软件构架在 的分析不尽相同: 线上服务提供商(像社交网络, 大规模和可扩展的分布式系统中的设计和实现。 零售商等) 集中于对在线和离线的点击产生的海 量数据来进行深度挖掘;医学影像数据分析的重 首先我们来看一下一个来源于华盛顿邮报的 要性对于生物医学研究和临床诊断都无需多言; 全球范围内数据存贮量的变化趋势图,如图1所 海量数据分析的方法也是多样化,就有数据挖掘、 示,浅色的数据为Analog Data,即模拟数据,像 模式识别、数据融合与集成、时间序列分析等 我们以前听的磁带就属于这一范畴;深色的即为 3、传统的商业数据库价格昂贵 Digital Data。1986年,Analog Data为26.2亿 GB, Digital Data为0.2亿GB。到了2007年,Analog a) 软件的license价格高昂; Data为188.6亿GB,增长了约8倍,相比较,Digital b) 即便开源的数据库维护费用也是不菲; Data为2761.2亿GB,增长了约1万3000倍,其中 c) 存储及管理数据的费用至少为 $10,000/TB,与之 . 有1230亿GB,44.5%存放在个人电脑上。如果按照. 相比类Hadoop 的系统只需$1,500/TB。 这个趋势,到2020年,预计Digital Data将会达到 4、传统的数据库处理模式是一种基于“scale-up” 35ZB。 的模式 a) 传统数据库处理能力的提高依赖于CPU/内存/存 储/网络 的更新升级;

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档