- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop BigData Series
①
Basic Hadoop
Kyle Apr. 2016
Hadoop
CONTENTS
1. Hadoop Introduction
2. Hadoop Ecosystem
1. Hadoop Introduction
Hadoop BigData Series
Hadoop是一个开源的、可靠的、可扩展的分布式并行计算框架
主要组成:分布式文件系统HDFS和MapReduce算法执行
作者:Doug Cutting
语言:Java,支持多种编程语言,如:Python、C++
1. Hadoop Introduction
Hadoop BigData Series
Hadoop是Google的集群系统的开源实现
Google集群系统:GFS(Google File System)、MapReduce、BigTable
Hadoop主要由HDFS(Hadoop Distributed File System Hadoop分布式文件系统)、MapReduce和HBase组成
Hadoop的初衷是为解决 Nutch 的海量数据爬取和存储的需要
Hadoop于2005年秋天作为 Lucene的子项目Nutch的一部分正式引入Apache基金会。
名称起源: Doug Cutting儿子的黄色大象玩具的名字
1. Hadoop Introduction
Hadoop BigData Series
数据集主要特点
Volume: 数量量从TB到PB级别
Variety: 数据类型复杂,超过80%的数据是非结构化的
Velocity:数据量在持续增加(两位数的年增长率)
其他特征
数据来自大量源,需要做相关性分析
需要实时或者准实时的流式采集,有些应用90%写vs.10%读
数据需要长时间存储,非热点数据也会被随机访问
1. Hadoop Introduction
Hadoop BigData Series
2. Hadoop Ecosystem
Hadoop BigData Series
Hadoop
Hdfs
MapReduce
Yarn
2. Hadoop Ecosystem
Hadoop BigData Series
Hadoop
Hdfs
MapReduce
Yarn
Zookeeper
HBase
Pig
Hive
Oozie
Sqoop
Cassandra
Avro
Ambari
Chukwa
Spark
Hue
Flume
Kafka
Mahout
2. Hadoop Ecosystem
Hadoop BigData Series
组件简介
1
Apache ZooKeeper
主要是用来解决多个分布式应用遇到的互斥协作与通信问题,大大简化分布式应用协调及其管理的难度。
分布式、开源的协调服务
2
Apache Hbase
高可靠性、高性能、面向列、可伸缩。可在廉价PC Server上搭建大规模结构化存储集群。
分布式存储系统
3
Apache Pig
提供类SQL类型语言,该语言的编译器会把用户写好的Pig型类SQL脚本转换为一系列经过优化的MR操作并负责向集群提交任务。
基于Hadoop的大规模数据分析工具
4
Apache Hive
将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MR统计,适合数据仓库的统计分析。
基于Hadoop的一个数据仓库工具
2. Hadoop Ecosystem
Hadoop BigData Series
组件简介
5
Apache Oozie
用于管理和协调运行在Hadoop平台上各种类型任务(HDFS、Pig、MR、Shell,Java等)。
工作流引擎服务
6
Apache Flume
可用于日志数据收集、处理和传输,功能类似于Chukwa,但比Chukwa更小巧实用。
分布式日志数据聚合与传输工具
7
Apache Mahout
提供了大量机器学习算法的MR实现,并提供了一系列工具,简化了从建模到测试流程。
基于Hadoop的分布式程序库
8
Apache Sqoop
将一个关系型数据库(MySQL 、Oracle 、Postgres等)中的数据导入Hadoop的HDFS中,也可以将HDFS的数据导入关系型数据库中。
数据相互转移的工具
2. Hadoop Ecosystem
Hadoop BigData Series
组件简介
9
Apache Cassandra
用于存储简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。
一套开源分布式NoSQL数据库系统
10
Apache Avro
用于大批量数据实时动态交换,它是新的数据序列
您可能关注的文档
- 2-077-奥迪Q5越野体验案例.ppt
- 2-080-比亚迪试驾活动案例.ppt
- 公司级级安全培训概论.ppt
- 2-081-中国重汽集团深圳卡车漂移案例.ppt
- 公司运营思路概论.ppt
- 高校知识概论.ppt
- 1.电荷及其守恒定律3(44p)案例.ppt
- 高效SQL语句概论.ppt
- 功能各异的无机非金属概论.ppt
- 粉尘环境挖掘机冷却系统的改进与维护(姚斌)概论.ppt
- 智能控制新时代-半导体器件引领未来.pptx
- 2018-2024年中国土地流转行业市场运营态势分析及投资前景预测报告.docx
- 2025-2031年中国经济开发区行业市场调查研究及发展趋势预测报告.docx
- 中国键盘鼠标行业市场评估分析及发展前景调研战略研究报告.docx
- 中国癌症药物行业市场深度调查评估及投资方向研究报告.docx
- 2023-2029年中国移动出行行业市场深度分析及投资策略咨询报告.docx
- 中国相机模组行业未来趋势预测分析及投资规划研究建议报告.docx
- 通用型房产交易债务清算合同书2024版.docx
- 通用型水泥熟料交易协议书细则版B版.docx
- 退役军人事务厅2024年通用.docx
文档评论(0)