尚学堂Hadoop入门教程(一)如何使用Hadoop分析数据.pdfVIP

尚学堂Hadoop入门教程(一)如何使用Hadoop分析数据.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
北京尚学堂提供 Hadoop从这里开始 ! 和我一起学习下使用 Hadoop 的基本知识,下文将以 Hadoop Tutorial 为主体带 大家走一遍如何使用 Hadoop分析数据 ! 这个专题将描述用户在使用 Hadoop MapReduce(下文缩写成 MR)框架过程中面对的最重要的东西。 Mapreduce 由 client APIs 和运行时 (runtime) 环境组成。其中 client APIs 用来编写 MR程序,运行 时环境提供 MR运行的环境。 API 有 2 个版本,也就是我们通常说的老 api 和新 api 。运行时有两个版 本: MRv1和 MRv2。该教程将会基于老 api 和 MRv1。 其中 : 老 api 在 org.apache.hadoop.mapred 包中 , 新 api 在 org.apache.hadoop.mapreduce 中。 前提 首先请确认已经正确安装、配置了 CDH,并且正常运行。 MR 概览 Hadoop MapReduce是一个开源的计算框架,运行在其上的应用通常可在拥有几千个节点的集群上并 行处理海量数据(可以使 P 级的数据集)。 MR作业通常将数据集切分为独立的 chunk ,这些 chunk 以并行的方式被 map tasks 处理。 MR框架对 map的输出进行排序,然后将这些输出作为输入给 reduce tasks 处理。典型的方式是作业的输入和 最终输出都存储在分布式文件系统 (HDFS)上。 通常部署时计算节点也是存储节点, MR框架和 HDFS运行在同一个集群上。这样的配置允许框架在集 群的节点上有效的调度任务, 当然待分析的数据已经在集群上存在, 这也导致了集群内部会产生高聚 合带宽现象(通常我们在集群规划部署时就需要注意这样一个特点)。 MapReduce框架由一个 Jobracker (通常简称 JT )和数个 TaskTracker (TT)组成(在 cdh4 中如果使 用了 Jobtracker HA特性,则会有 2 个 Jobtracer ,其中只有一个为 active ,另一个作为 standby 处 于 inactive 状态)。 JobTracker 负责在所有 tasktracker 上调度任务,监控任务并重新执行失败的 任务。所有的 tasktracker 执行 jobtracker 分配过来的任务。 应用至少需要制定输入、输出路径,并提供实现了适当接口和 ( 或 ) 抽象类的 map和 reduce 函数。这 些路径和函数以及其他的任务参数组成了任务配置对象( job configuration )。Hadoop 任务客户端 提交任务 (jar 包或者可执行程序等) 和配置对象到 JT。JT 将任务实现和配置对象分发到数个 TT (由 JT 分配),调度、监控任务,并向客户端返回状态和检测信息。 Hadoop 由 JavaTM实现 , 用户可以使用 java 、基于 JVM的其他语言或者以下的方式开发 MR应用: Hadoop Streaming- 允许用户以任何一种可执行程序(如 shell 脚本)实现为 mapper和 ( 或)reducer 来创建和运行 MR任务。 Hadoop Pigs – 一种兼容 SWIG( 不基于 JNITM) 的 C++ API,用来实现 MapReduce应用。 北京尚学堂 -cctv 央视网广告合作伙伴,专业 IT 培训机构 , 口碑最好的 java 培训、 iOS 培训、android 培训、 hadoop 大数 据培训、 web 前端培训机构, 0 元入学,先就业后付款,平均就业薪水 9500 以上 输入和输出 MapReuce框架内部处理的是 kv 对(key-value pair) ,因为 MR将任务的输入当做一个 kv 对的集合, 将输出看做一个

文档评论(0)

苦竹酒 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档