Hadoop分布式大数据处理架构.doc
Hadoop:分布式大数据处理架构
?
由于具备低成本和前所未有的高扩展性,Hadoop已被公认为是新一代的大数据处理平台。就像30年前SQL(Structured Query Language)出现一样,Hadoop正带来了新一轮的数据革命。如今Hadoop已从初出茅庐的小象变成了行业的巨人,但Hadoop仍需继续完善。
基于Java语言构建的Hadoop框架实际上一种分布式处理大数据平台,其包括软件和众多子项目。在近十年中Hadoop已成为大数据革命的中心。MapReduce作为Hadoop的核心是一种处理大型及超大型数据集(TB级别的数据。包括网络点击产生的流数据、日志文件、社交网络等所带来的数据)并生成相关的执行的编程模型。其主要思想是从函数式编程语言借鉴而来的,同时也包含了从矢量编程语言借鉴的特性。
互联网巨头Yahoo!作为Hadoop框架的先驱研究者,在6年时间已经将Hadoop塑造成了极为成功的技术。但相比于SQL,Hadoop在某些方面仍然显得不够完善。这直接导致现今所有目光都集中在Hadoop供应商的身上。包括Amazon、Cloudera等公司带来众多的创新并提供强大的工具。Cloudera推出的CHD3包含众多的附加软件,可以帮助管理、运行Hadoop上的复杂任务,例如:Apache Mahout、Flume、Sqoop、Pig、Oozie、Hive、HBase、ZooKeeper、Whirr等。同时Cloudera也是目前最大的提供企业Hadoop技术支持和培训的厂商。而Amazon是较早在公共云中运行Hadoop的公司,其提供的基于MapReduce的弹性计算可提供海量的数据计算服务。
但数据处理只是大数据处理的一部分,组织最终想要得到的是经过分析后的有价值的数据。商业智能和数据分析厂商如Datameer、Hadapt以及Karmasphere就显的不可或缺。
Hadoop在2011年证明自神的价值,最明显的迹象就是五大数据库管理软件供应商EMC、IBM、Informatica、Microsoft以及Oracle都投入了Hadoop的怀抱。EMC与MapR展开合作,而Microsoft和Oracle则分别与Hortonworks和Cloudera展开了合作。而EMC和Oracle已经推出了Hadoop专有设备。下面就让我们来看一下Hadoop在大数据领域都俘虏了那些公司的心。
Amazon基于MapReduce的服务
Amazon早在2009年就推出了基于Hadoop MapReduce的EC2(Elastic Compute Cloud)服务。因此Amazon在应对用户应用和需求上显得胸有成竹。无论是中小型企业还是超大型的组织,基于MapReduce的EC2服务都经受住了考验。同时AWS(Amazon Web Service)还包括Amazon S3(Simple storage Service)。Amazon S3可提供高伸缩性、靠可靠性、高可用性以及极低的存储成本。利用AWS可高效的处理数据密集型的任务,如Web索引、数据挖掘、日志文件分析、机器学习以及科技和生物信息的学术研究。
Cloudera提供安全的Hadoop平台
Cloudera也是比较早的大规模Hadoop软件和服务提供商。Cloudera一直专注于将开源的Apache Hadoop完善成可靠的平台。Cloudera目前拥有100多家客户,并且在本月还与Oracle展开合作,共同进军大数据领域。
在Cloudera提供了用于管理大数据的管理控制台和负责管理Hadoop部署的工具以及企业级的支持。Cloudera的管理工具提供基于向导式的Hadoop安装和配置菜单。同时提供相应的工具,以帮助系统管理员监控平台的健康状况、诊断问题、优化性能,并进行所需的配置和安全变更。而Cloudera的企业级支持与服务包括配置检查、升级和与第三方系统集成以及其他技术资源。现今Cloudera管理软件现在的价格是每节点每年4000美元(不包括硬件)。
Datameer将大数据与商业智能有机结合
?
Datameer宣称其公司基于Hadoop平台的产品方案DAS(Datameer Analytics Solution)非常适用于商业智能(BI)。Datameer可通过JDBC、Hive、Http连接任何的数据源。同时包括一个向导驱动集成平台,可安排负载并从任何结构化、半结构化和非结构化的大数据集。Datameer的大数据分析解决方案通过表格接口整合Hadoop的数据挖掘能力。并通过REST API在私有云和公共云中输入和输出数据。
EMC的统一数据分析平台
EMC推出用于支持大数据分析的平台――EMC Greenplum统一分析平
您可能关注的文档
- C2-数据存储安全-数据恢复.ppt
- CALIS引进资源集团共享模式及其案例分析肖珑CALIS文理中心北京.ppt
- CAPWAP隧道技术白皮书.doc.doc
- CA绑定操作手册.doc.doc
- CDM项目网站建设调查问卷-中国气候变化信息网.doc
- cLattice门户网站维护操作说明书-深圳太极云软技术股份有限公司.doc
- CMM-能力成熟度模型-南京大学计算机系.ppt
- CloudApplications云应用程序的拓扑结构和业务流程-Events-Oasis.ppt
- CNKI系列数据库产品总体介绍.doc
- Corsica调研与工作进展-计算机应用研究室.ppt
- 浙江省温州市2024-2025学年七年级上学期语文期末考查卷.docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(原卷版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(解析版).docx
- 精品解析:北京市海淀区2025-2026学年九年级上学期期末语文试题(解析版).docx
- 精品解析:北京市东城区汇文中学2025-2026学年八年级上学期期中语文试题(原卷版).docx
- 精品解析:北京市回民学校2024-2025学年九年级上学期期中语文试题(原卷版).docx
- 精品解析:2024-2025学年广东省广州市从化区街口镇中心小学人教版五年级上册期中测试数学试卷(解析版).docx
- 精品解析:北京市通州区2024-2025学年七年级下学期期末考试英语试卷(解析版).docx
- 精品解析:北京市建华实验学校2024-2025学年七年级下学期期中英语试题(解析版).docx
原创力文档

文档评论(0)