Hadoop生态体系简介.ppt

下载文档 降价啦

9
0
约2.31千字
约 33页
2017-06-13 发布于湖北
举报
版权申诉
保障服务

Hadoop生态体系简介.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hadoop生态体系简介

推荐博客、微信公众号董西成的博客 (/) 微信公众号hadoop123 谢谢 Hadoop生态体系简介 By Ivan 提纲为什么选择Hadoop Hadoop生态体系结构分布式文件系统HDFS 分布式计算框架MapReduce 资源调度系统YARN 基于类SQL的数据分析工具Hive 分布式数据库HBase 分布式协调服务ZooKeeper 为什么选择Hadoop 互联网数据与传统行业数据的特征对比特征传统行业互联网行业数据密度高低结构化数据一般是一般不是数据载体 IOE架构（集中式） “屌丝机”+Linux（分布式）为什么选择Hadoop Hadoop的设计需求高度可扩展性 (High Scalability) 高可用性 (High Availability) 容错性 (Fault Tolerance) 高效性 (High Performance) 低成本 (Low cost) Hadoop发行版本 Cloudera Hadoop (CDH) Hortonworks Data Platform (HDP) MapR Intel Hadoop生态体系结构分布式文件系统HDFS 客户端读取HDFS中的数据客户端将数据写入HDFS HDFS复本如何存放在运行客户端的节点上放第一个复本第二个复本放在与第一个不同且随机另外选择的机架中的节点上第三个复本与第二个复本放在同一个机架上，且随机选择另一个节点 HDFS复本位置示意分布式计算框架MapReduce 原理——分而治之一个最简单的例子-WordCount MapReduce的数据流示意图 Map阶段 Client计算输入文件分片 Maptask读取这个分片的内容,执行用户的mapper方法 map输出的结果会暂且放在一个环形内存缓冲区中,达到指定比率（默认80%）会写入磁盘写入前,会根据reduce的数量对key进行分区(partition),然后对每个分区里的数据进行排序,如果有combiner,将排序后的结果进行combine操作最后把生成的多个文件合并成一个有序的文件 Reduce阶段 Reduce通过http从NodeManager下载map输出数据如果文件比较小，会写到内存里，否则输出到磁盘最后把接收到的文件合并起来输入reduce 执行用户reducer方法，结果输出到hdfs MapReduce(V1)的工作组件 MapReduceV1的缺点 Jobtracker负责作业调度和任务进度监控，追踪任务、重启失败或过慢的任务和进行任务等级，例如维护计数器总数。在节点数超过4000的大型集群，面临可扩展性的瓶颈资源调度系统YARN 资源调度系统YARN Resource Manager (RM)负责管理集群的container分配 Node Manager管理每个节点上的资源和任务，主要有两个作用，定期向RM汇报该节点的资源使用情况和各个container的运行状态，接收并处理AM的任务启动、停止等请求 Application Master （AM），每个应用专属，负责该应用下任务的调度和协调每个container可看做是一个资源的封装实体，包括CPU资源和内存资源 MapReduce(V2)的工作组件 Hive简介项目起源：让精通SQL技能的分析师能够对Facebook存放在HDFS中的大规模数据集进行查询基于MapReduce，即Hive将SQL查询编译成MapReduce任务，然后在Hadoop集群上运行 Hive join的一个例子 select , o.orderid from order o join user u on o.uid = u.uid; Hive优化技巧原语句：SELECT COUNT( DISTINCT id ) FROM TABLE_NAME 由于语句没有group by，hive只在一个reduce处理数据改写为：SELECT COUNT(*) FROM (SELECT DISTINCT id FROM TABLE_NAME) T HBase简介 Hbase是一个在HDFS上开发的面向列的分布式数据库表可以很“高”（数十亿个数据行），表可以很“宽”（数百万个列）非RDBMS 没有真正的索引自动分区线性扩展和对新节点的自动处理容错批处理 Hbase的架构 Hbase的使用 ZooKeeper的理论基石-Paxos Paxos算法是莱斯利·兰伯特（英语：Leslie Lamport，LaTeX中的“La”）于1990年提出的一种基于消息传递且具有高度容错特性的一致性算法解决因进程慢、垮、重启，以及消息可能延迟、丢失、重复的场景下，确保分布式系统中各节