Hadoop打开大数据之门金钥匙.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop打开大数据之门金钥匙

Hadoop打开大数据之门金钥匙   大数据是眼下很多企业面临的一个挑战,由于数据量非常巨大,而且数据类型异常复杂,传统的基于关系型数据库的存储和分析办法显露出不足。Hadoop的出现给人们带来解决大数据问题的希望,特别是一批著名的大企业,如谷歌、雅虎、JP摩根大通等,成功地利用Hadoop开发出了开源的大数据管理系统,让人们看到了Hadoop在解决大数据难题时的巨大潜力,很多企业纷纷决定引入Hadoop,来解决自己的大数据难题。   不过,专家提醒,在决定利用Hadoop构建自己的大数据管理系统之前,一定要确保自己充分了解Hadoop。采用Hadoop之前最好先对技术人员进行必要的培训,以确保技术人员具备必要的数据分析专业知识。显然,并不是所有的企业都能成功地开发和部署Hadoop应用的。目前,Hadoop还是一个刚刚起步的市场,有很多厂商提供与Hadoop有关的产品和服务,其中有些是基于云的SaaS服务。   最重要的是,一定不要盲目跟风,每个企业都有自己的特殊需求,都有自己的技术条件。根据Forrester的市场调查,目前,在美国只有1%的Hadoop项目是真正应用于生产环境中的。“这个数据肯定将在未来一年翻一番或两番。” Forrester分析师吉姆?库贝勒斯(James Kobielus)表示。他呼吁企业要保持谨慎,因为相关的技术还在演进之中,技术更新非常快。   可以肯定的是,与传统的数据库管理系统相比,Hadoop有自己的优势,尤其是它既能处理关系数据库中的结构化数据,同时也能处理诸如音视频等非结构化数据,而后者在现实世界中普遍存在,要远远比结构化数据更为常见。Hadoop系统还可以根据数据的规模和问题的复杂程度轻松地扩展。   “Hadoop的应用真正改变了我们对数据的理解和使用方式。” eBay用户体验、搜索和平台副总裁休?威廉姆斯(Hugh Williams)表示。eBay如今拥有的数据量高达9个PB,这些数据既有Terabyte系统所产生的结构化数据,同时也有Hadoop系统产生的非结构化数据。   “你可以在同样的硬件资源上运行各种不同类型的工作负载。相比而言,在Hadoop之前我们使用硬件资源的方式太呆板、太不灵活了。”威廉姆斯说,“如今,你能以一种与过去完全不同的方式来充分发挥集群的计算能力。这将大大降低公司创新的门槛,从而有助于组织的创新。Hadoop功能太强了。”   随需求增长自由扩展   位于美国佐治亚州德卢斯市的Concurrent公司是较早采用Hadoop的公司之一。这个公司对外销售流媒体系统。同时,它还替客户保存和分析大量的视频数据。为了更好地应对待处理数据量的不断增长,两年前Concurrent采用了Cloudera公司的Hadoop CDH系统。   “Hadoop是我们解决大数据难题必不可少的工具,借助它我们在很短的时间内就能完成海量数据的处理。”Concurrent公司工程总监威廉?拉扎罗(William Lazzaro)说。   拉扎罗介绍,Concurrent有一个部门专门收集和保存客户的视频点播统计数据,Hadoop的部署给这个部门解决了一个很大的难题。“我们有一个客户,现在一个月就可以新生成30亿条记录,我们预计,在未来3个月,它每月的数据量将会达到10亿条。”   很长时间以来,Concurrent公司有两个大的难题:一个是传统的关系型数据库无法处理诸如视频这类非结构化数据,另一个是需要进行处理和存储的数据量成倍增长。“我们的客户希望要保留4#12316;5年的数据。”拉扎罗解释说,“如果它们每天的数据量达到PB级,对我们而言,将是一个非常的挑战。”   他说,幸运的是,Concurrent的工程师发现,采用Hadoop他们可以应对其客户不断增加的数据量带来的巨大处理和存储压力。“测试过程中,工程师们曾经完成过每天为客户处理20亿条数据记录。如果数据量再增加,我们只要往节点中加入服务器,就可以马上获得所需要的处理能力。整个系统的可扩展性非常好。”拉扎罗说。   他说,作为比较,该公司采用传统的数据库来完成同样的工作。他们发现Hadoop的主要好处之一是,在数据量增加时可以很容易和迅速地增加硬件,同时,还不需额外的授权费用,因为它是开源软件。“这是Hadoop与传统的关系数据库系统相比 一个非常大的不同。”拉扎罗说。   位于美国加利福尼亚州圣克拉拉市从事生命科学和基因组研究的NextBio公司也是Hadoop的用户,它们所从事的人类基因测序和相关科研工作涉及的数据量也非常庞大。   “我们有非常多的各种基因组数据,需要与其他数据进行关联和比较,我们采用Hadoop来帮助完成这些工作。”NextBio工程副总裁萨特南?阿拉克(Satnam

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档