云计算中“大数据”.docVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
云计算中“大数据”

云计算中的“大数据”   过去一年,“大数据”正在成为一个热门话题。   半个世纪信息技术的发展,主要解决的是云计算中“结构性”数据的存储、处理与应用。“结构性”数据的特征有如你到银行去存取款,银行的计算机系统记录着你的名字,在名字之后是你存取款的数量、时间、类型等信息。这些数据的特征是“逻辑性强”,每个“因”都有“果”。   然而现实社会中大量数据事实上没有“显现性”的因果关系,如一个时刻的交通堵塞、天气状态、人的状态(心理与物理)等,它的特征是随时、海量与弹性,如一个突变天气分析包含会有几百个PB(Petabyte, 1Petabyte=1024TB)数据。而一个社会事件如乔布斯去世瞬间所产生在互联网上的数据(微博、纪念、文章、视频等)也是突然暴发出来。   传统的计算机设计与软件都是以解决“结构性”数据为主。对这一类新型的“非结构”要求一种新的计算架构??互联网时代,尤其是社交网络、电子商务与移动通讯把人类社会带入一个以“PB”为单位的结构与非结构数据信息的新时代,它就是“大数据(Big Data)”时代。      大数据的企业与技术   一个大规模生产、分享、应用数据的时代正在开启,我们每个人都成为了数据的创造者和使用者,微博、社交网络都是最好的例子。   工业革命以后,书籍等以文字为载体的知识大约每十年可以翻一番;1970年以后,知识大约每三年就可以翻一番;如今,全球信息总量每两年就可以翻一番;2010年互联网的数据量,比之前所有年份的总和还要多。现在,人类每天可以产生数以PB的数据,从日志、微博、分享照片、传送视频,多种格式的数据实时、不断地更新。在医疗卫生、地理信息、电子商务、影视娱乐等行业,每天也都在创造着大量的数据。   数据正在成为从工业经济向知识经济转变的重要特征,成为新时代最关键的生产要素和产品形态。   代表着大数据时代的如Apple、Facebook、Amazon等公司正成为这场变革的推动力量。同时新企业也层出不穷,比如2007年才成立的Dropbox公司,创始人不到27岁,估值已经超过40亿美元,这是一家提供文件备份及共享服务的公司,允许用户在不同平台和设备之间同步并共享文件,Dropbox用户数量超过2500万,每天存储的文件数量2亿多个,苹果公司曾出价8亿美元想收购它未成功。   值得一提的是,这家公司最早使用的也是Amazon的S3云计算平台,得以低成本迅速起步。Amazon云计算数据存储服务,原来只是为了利用闲置服务器资源,现在一年可以带来近10亿美元收入,并且供不应求。今年初,Amazon S3云存储服务存储文件是2620亿份,这个数字最近变成了5660亿份,翻了1倍还多。目前Amazon称自己的S3数据存储服务,担心的已经不是数据的存储成本,而是更加重要的数据处理的问题。   云计算中的大数据有几个核心要素,如数据在云端的集合与分享、个人数据的无缝连接(随时、随地、同步)以及数据的跟踪分析和挖掘。   源自雅虎的Hadoop这样大数据系统越来越重要,作为开源的分布式数据处理系统架构,Hadoop主要面向存储和处理成百上千TB直至PB级别的结构化、半结构化或非结构化的大数据。Hadoop提供的MapReduce能将大数据问题分解成多个子问题,将它们分配到成百上千个处理节点之上,再将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。   Hadoop已经成为AOL、Facebook、Twitter和Netflix这些公司大数据分析的主要解决方案。比如像Facebook一天的数据要比很多大公司一年的数据还要多,他们通过Hadoop收集和存储每天生成的数百万的文件,使用开源Apache Hive数据仓库工具集中对这些数据进行分析。   Opera Solutions这样的创新公司提供的服务更加引人注目:客户将数据上传到Opera平台,Opera就会根据用户数据池里的相关“信号”进行分析,根据每个客户的个性化需求,Opera雇佣各行业的专家来帮助他们进行数据分析,Opera Solutions的年营业额已经超过1亿美元。   新的创业公司像MapR、Zettaset、Cloudera、HStreaming这些和Hadoop相关的大数据公司,在资本市场倍受青睐。它的快速成长将会成为下一个改变信息技术的力量。      大数据的经济意义   大数据为云计算大规模与分布式的计算能力提供了应用的空间,解决了传统计算机无法解决的问题。同时这个领域的计算标准与软件均刚刚起步,为全世界新型软、硬件及应用创新提供了前所未有的机会。   海量的数据需要足够存储来容纳它,快速、低廉价格、绿色的数据中心部署成为关键。最近一年多来,谷歌、Facebook、Racksp

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档