基于Hadoop分布式大数据处理架构.docVIP

下载本文档

6
0
约4.86千字
约 13页
2017-08-20 发布于湖北
举报

基于Hadoop分布式大数据处理架构.doc

Hadoop：分布式大数据处理架构 ? 由于具备低成本和前所未有的高扩展性，Hadoop已被公认为是新一代的大数据处理平台。就像30年前SQL（Structured Query Language）出现一样，Hadoop正带来了新一轮的数据革命。如今Hadoop已从初出茅庐的小象变成了行业的巨人，但Hadoop仍需继续完善。基于Java语言构建的Hadoop框架实际上一种分布式处理大数据平台，其包括软件和众多子项目。在近十年中Hadoop已成为大数据革命的中心。MapReduce作为Hadoop的核心是一种处理大型及超大型数据集（TB级别的数据。包括网络点击产生的流数据、日志文件、社交网络等所带来的数据）并生成相关的执行的编程模型。其主要思想是从函数式编程语言借鉴而来的，同时也包含了从矢量编程语言借鉴的特性。互联网巨头Yahoo！作为Hadoop框架的先驱研究者，在6年时间已经将Hadoop塑造成了极为成功的技术。但相比于SQL，Hadoop在某些方面仍然显得不够完善。这直接导致现今所有目光都集中在Hadoop供应商的身上。包括Amazon、Cloudera等公司带来众多的创新并提供强大的工具。Cloudera推出的CHD3包含众多的附加软件，可以帮助管理、运行Hadoop上的复杂任务，例如：Apache Mahout、Flume、Sqoop、Pig、Oozie、Hive、HBa

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于Hadoop分布式大数据处理架构.docVIP