网站大量收购闲置独家精品文档,联系QQ:2885784924

Hadoop大数据技术系列一:BasicHadoop案例.pptx

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop BigData Series ① Basic Hadoop Kyle Apr. 2016 Hadoop CONTENTS 1. Hadoop Introduction 2. Hadoop Ecosystem 1. Hadoop Introduction Hadoop BigData Series Hadoop是一个开源的、可靠的、可扩展的分布式并行计算框架 主要组成:分布式文件系统HDFS和MapReduce算法执行 作者:Doug Cutting 语言:Java,支持多种编程语言,如:Python、C++ 1. Hadoop Introduction Hadoop BigData Series Hadoop是Google的集群系统的开源实现 Google集群系统:GFS(Google File System)、MapReduce、BigTable Hadoop主要由HDFS(Hadoop Distributed File System Hadoop分布式文件系统)、MapReduce和HBase组成 Hadoop的初衷是为解决 Nutch 的海量数据爬取和存储的需要 Hadoop于2005年秋天作为 Lucene的子项目Nutch的一部分正式引入Apache基金会。 名称起源: Doug Cutting儿子的黄色大象玩具的名字 1. Hadoop Introduction Hadoop BigData Series 数据集主要特点 Volume: 数量量从TB到PB级别 Variety: 数据类型复杂,超过80%的数据是非结构化的 Velocity:数据量在持续增加(两位数的年增长率) 其他特征 数据来自大量源,需要做相关性分析 需要实时或者准实时的流式采集,有些应用90%写vs.10%读 数据需要长时间存储,非热点数据也会被随机访问 1. Hadoop Introduction Hadoop BigData Series 2. Hadoop Ecosystem Hadoop BigData Series Hadoop Hdfs MapReduce Yarn 2. Hadoop Ecosystem Hadoop BigData Series Hadoop Hdfs MapReduce Yarn Zookeeper HBase Pig Hive Oozie Sqoop Cassandra Avro Ambari Chukwa Spark Hue Flume Kafka Mahout 2. Hadoop Ecosystem Hadoop BigData Series 组件简介 1 Apache ZooKeeper 主要是用来解决多个分布式应用遇到的互斥协作与通信问题,大大简化分布式应用协调及其管理的难度。 分布式、开源的协调服务 2 Apache Hbase 高可靠性、高性能、面向列、可伸缩。可在廉价PC Server上搭建大规模结构化存储集群。 分布式存储系统 3 Apache Pig 提供类SQL类型语言,该语言的编译器会把用户写好的Pig型类SQL脚本转换为一系列经过优化的MR操作并负责向集群提交任务。 基于Hadoop的大规模数据分析工具 4 Apache Hive 将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MR统计,适合数据仓库的统计分析。 基于Hadoop的一个数据仓库工具 2. Hadoop Ecosystem Hadoop BigData Series 组件简介 5 Apache Oozie 用于管理和协调运行在Hadoop平台上各种类型任务(HDFS、Pig、MR、Shell,Java等)。 工作流引擎服务 6 Apache Flume 可用于日志数据收集、处理和传输,功能类似于Chukwa,但比Chukwa更小巧实用。 分布式日志数据聚合与传输工具 7 Apache Mahout 提供了大量机器学习算法的MR实现,并提供了一系列工具,简化了从建模到测试流程。 基于Hadoop的分布式程序库 8 Apache Sqoop 将一个关系型数据库(MySQL 、Oracle 、Postgres等)中的数据导入Hadoop的HDFS中,也可以将HDFS的数据导入关系型数据库中。 数据相互转移的工具 2. Hadoop Ecosystem Hadoop BigData Series 组件简介 9 Apache Cassandra 用于存储简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。 一套开源分布式NoSQL数据库系统 10 Apache Avro 用于大批量数据实时动态交换,它是新的数据序列

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档