Hadoop 从小象到巨人崛起.docVIP

下载本文档

13
0
约2.97千字
约 7页
2018-06-23 发布于福建
举报
版权申诉

Hadoop 从小象到巨人崛起.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Hadoop 从小象到巨人崛起

Hadoop 从小象到巨人崛起　　随着互联网、移动互联网、物联网、云计算的快速发展，各行各业爆炸性增长的海量数据将再一次颠覆云时代，信息量暴增的大数据时代吹响了号角。　　用户如何从这庞大的数据库中提取对自己有用的信息呢？这就需要大数据分析技术和工具，而传统的商业智能（BI）工具已经抵挡不住企业如此庞大的数据信息。提到大数据，不得不说的是与大数据相关的技术名词：Hadoop、MapReduce、HBase、NoSQL等。业界的众多厂商也都开始从技术入手，打造各自的大数据解决方案。一时间，Hadoop红遍了全球，就像当年的Linux开源软件系统一样，成为了研究和设计大数据解决方案的主流平台。　　华丽的变形　　Hadoop的发展基本上经历了这样一个过程：从一个开源的Apache基金会项目，随着越来越多的用户的加入，不断地被使用、贡献和完善，逐渐形成了一个强大的生态系统。　　随着云计算和大数据的发展，如今Hadoop已经是一个能够让用户轻松驾驭和使用的分布式计算平台。用户可以在不了解分布式底层细节的情况下，轻松地在Hadoop上开发和运行处理海量数据的应用程序，并能充分利用集群的威力实现高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在价格低廉的硬件上，而且它提供高传输率来访问应用程序的数据，适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求，这样可以用流的形式访问文件系统中的数据。　　Hadoop最受欢迎的是在Internet上对搜索关键字进行内容分类的工具，但它也可以解决许多要求极大伸缩性的问题。例如，如果您要grep一个100TB的巨型文件，会出现什么情况？在传统的系统上，这将需要很长的时间。但是Hadoop在设计时就考虑到这些问题，采用并行执行机制，因此能大大提高效率。　　如今，基于Hadoop的应用已经遍地开花：Yahoo通过集群运行Hadoop，以支持广告系统和Web搜索的研究；Facebook借助集群运行Hadoop，以支持其数据分析和机器学习；百度则使用Hadoop进行搜索日志的分析和网页数据的挖掘工作；淘宝的Hadoop系统用于存储并处理电子商务交易的相关数据。　　九年的长跑，Hadoop已从初出茅庐的小象华丽变形，成为了行业巨人，但还需戒骄戒躁、不断完善。　　性能大提升　　Hadoop还是一个能够对大量数据进行分布式处理的软件框架。Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。　　Hadoop是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。　　Hadoop是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop可以将数千个节点投入计算，非常具有性能潜力。但并非所有的工作都可以进行并行处理，如用户交互进行的数据分析。如果你设计的应用没有专门为 Hadoop集群进行优化，那么性能并不理想，因为每个Map/Reduce任务都要等待之前的工作完成。　　英特尔针对大数据的开放架构核心产品线，推出了英特尔Hadoop分发版，让用户可以实现“软硬协同，体验至上”的创新效果。例如，利用英特尔至强处理器平台对网络和I/O 技术所做的优化，与英特尔Hadoop分发版进行强力组合，以往分析1TB的数据需要4个多小时才能完全处理完，现在仅需要短短的7分钟即可完成，极大地提升了大数据分析的速度。　　Hadoop还是可伸缩的，能够处理PB级数据。由于批量处理功能，Hadoop最好部署在这些场合：索引编制、模式识别、推荐引擎建立和情绪分析。在所有这些场合下，数据大量生成，存储在Hadoop中，然后最终使用MapReduce函数来进行查询。但是这并不意味着，Hadoop会取代数据中心里面目前的组件。恰恰相反，Hadoop会集成到现有的IT基础设施里面，以便充分利用进入到该企业的海量数据。　　曾听过这样一则案例：Hadoop集成到一家企业网站后，情况较之先前大有改观：大大节省了时间和精力。来自Web服务器的日志数据不用经历ETL操作，而是直接被完整地发送到了Hadoop里面的HDFS。然后，对日志数据执行同样的清理过程，现在只使用MapReduce任务，一旦数据清理完毕，随后被发送到数据仓库。这个操作要迅速得多，这归因于省去了ETL这一步，加上MapReduce操作速度快。而且，所有数据仍然保存在Hadoop里面，网站操作人员后续所需数据都可以查询到。　　开源的典范　　Hadoop依赖于社区服务器，任何人都可以自由的下载、安装并运行。由于它是一个开源项目，所