Hadoop原理介绍概要.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop原理介绍;Hadoop概述 Hadoop介绍 Hadoop原理 Hadoop编程;Hadoop是一个开源的、可靠的、可扩展的分布式并行计算框架 主要组成:分布式文件系统HDFS和MapReduce算法执行 作者:Doug Cutting 语言:Java,支持多种编程语言,如:Python、C++;Hadoop是Google的集群系统的开源实现 Google集群系统:GFS(Google File System)、MapReduce、BigTable Hadoop主要由HDFS(Hadoop Distributed File System Hadoop分布式文件系统)、MapReduce和HBase组成 Hadoop的初衷是为解决 Nutch 的海量数据爬取和存储的需要 Hadoop于2005年秋天作为 Lucene的子项目Nutch的一部分正式引入Apache基金会。 名称起源: Doug Cutting儿子的黄色大象玩具的名字 ;Hadoop概述 Hadoop介绍 Hadoop原理 Hadoop编程;什么是大数据;大数据处理的需求和特点;大数据VS传统数据;并行关系数据库vs MPP/Hadoop;MPP vs. Hadoop/Hive/HBase;Hadoop生态圈;Core:一套分布式文件系统以及支持Map-Reduce的计算框架 Avro:定义了一种用于支持大数据应用的数据格式,并为这种格式提供了不同的编程语言的支持 HDFS:Hadoop分布式文件系统 Map/Reduce:是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集 ZooKeeper:是高可用的和可靠的分布式协同系统 Pig:建立于 Hadoop Core之上为并行计算环境提供了一套数据工作流语言和执行框架 Hive:是为提供简单的数据操作而设计的下一代分布式数据仓库。它提供了简单的类似SQL的语法的HiveQL语言进行数据查询 HBase:建立于 Hadoop Core之上提供一个可扩展的数据库系统 Flume:一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据 Mahout:是一套具有可扩充能力的机器学习类库 Sqoop:是Apache下用于RDBMS和HDFS互相导数据的工具 ;Hadoop概述 Hadoop介绍 Hadoop原理 Hadoop编程;设计目标 错误检测和快速自动恢复 硬件故障是常态而非异常 为流式数据访问优化 针对支持大数据集 单个文件大小有数GB或者TB 可提供高聚合带宽访问 可能够扩展至数千个节点 简化“一致性”模型 一次写入、多次读,写入过程可能并发 移动“计算”比移??“数据”更便宜 主要特点 使用低成本存储和服务器构建 存放PB级别的海量数据 高可扩展性,实际生产环境扩展至4000个节点 高可靠性和容错性,数据自动复制,可自我修复 高带宽,高并发访问,对于延迟不敏感 面向批处理;HDFS基本设计;HDFS基本设计;HDFS体系结构;什么是MapReduce编程模型?;MapReduce计算框架;MapReduce举例;代码举例;MapReduce 应用场景;HBase分布式数据库;HBase软件架构;HBase组件交互;HBase特性;HBase特性2;Hive数据仓库;Hive应用范围举例;Hive QL;Hive分区和桶;Hive分区举例;Hive及时查询;Zookeeper分布式协作服务;ZooKeeper提供的保证;ZooKeeper典型应用场景;机器学习Mahout;谢谢!

文档评论(0)

三沙市的姑娘 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档