设计和实现可扩展的分布式系统来处理海量数据.pdfVIP

下载本文档

1
0
约1.05万字
约 5页
2018-08-19 发布于天津
举报
版权申诉

设计和实现可扩展的分布式系统来处理海量数据.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Vol. 5 No.9/ Sep. 2011 设计和实现可扩展的分布式系统来处理海量数据张晓东（由张晓东教授在国际云计算技术研讨会上的报告整理而成）目前，我们所面对的一个严峻挑战，是如何有长带来了以下4个新技术上的挑战：效地处理规模越来越大、来势越来越猛的“数据海 1、现有的数据库技术不能适应海量数据：啸”，又称“海量数据”(Big Data)。这样的数据借助互联网的快速传递无所不在：从各种科学研究基 a) 2007年之前Facebook尚可以依赖第三方服务地，到众多政府机构，还有各大商业企业公司。举商提供的数据仓库来管理他们15TB的数据，现在世界上最大社交网Facebook为例，现在每天有超过每天Facebook要新增约70TB的压缩数据(4倍于 70 Terabytes (x1012 Bytes) 经过压缩后的新数据需 2007年的数据总量)；要存储、管理和分析。这个数据规模还在增加。主 b) 商业的并行数据库几乎少有能支持100+节点流的商业和开源数据库系统，包括并行数据库系统，的，而Yahoo!的 Hadoop 集群拥有 4000+ 节点，在规模上、性能上、和费用上无法对付日益增大的 Facebook的数据仓库拥有2750+节点；海量数据了。 2、海量数据涵盖了各种类型的数据，不同类型数据我将介绍以MapReduce 为基础的软件构架在的分析不尽相同: 线上服务提供商(像社交网络，大规模和可扩展的分布式系统中的设计和实现。零售商等) 集中于对在线和离线的点击产生的海量数据来进行深度挖掘；医学影像数据分析的重首先我们来看一下一个来源于华盛顿邮报的要性对于生物医学研究和临床诊断都无需多言；全球范围内数据存贮量的变化趋势图，如图1所海量数据分析的方法也是多样化，就有数据挖掘、示，浅色的数据为Analog Data，即模拟数据，像模式识别、数据融合与集成、时间序列分析等我们以前听的磁带就属于这一范畴；深色的即为 3、传统的商业数据库价格昂贵 Digital Data。1986年，Analog Data为26.2亿 GB， Digital Data为0.2亿GB。到了2007年，Analog a) 软件的license价格高昂； Data为188.6亿GB，增长了约8倍，相比较，Digital b) 即便开源的数据库维护费用也是不菲； Data为2761.2亿GB，增长了约1万3000倍，其中 c) 存储及管理数据的费用至少为 $10,000/TB，与之 . 有1230亿GB，44.5%存放在个人电脑上。如果按照. 相比类Hadoop 的系统只需$1,500/TB。这个趋势，到2020年，预计Digital Data将会达到 4、传统的数据库处理模式是一种基于“scale-up” 35ZB。的模式 a) 传统数据库处理能力的提高依赖于CPU/内存/存储/网络的更新升级；