- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
北京尚学堂提供
Hadoop从这里开始 ! 和我一起学习下使用 Hadoop 的基本知识,下文将以 Hadoop Tutorial 为主体带
大家走一遍如何使用 Hadoop分析数据 !
这个专题将描述用户在使用 Hadoop MapReduce(下文缩写成 MR)框架过程中面对的最重要的东西。
Mapreduce 由 client APIs 和运行时 (runtime) 环境组成。其中 client APIs 用来编写 MR程序,运行
时环境提供 MR运行的环境。 API 有 2 个版本,也就是我们通常说的老 api 和新 api 。运行时有两个版
本: MRv1和 MRv2。该教程将会基于老 api 和 MRv1。
其中 : 老 api 在 org.apache.hadoop.mapred 包中 , 新 api 在 org.apache.hadoop.mapreduce 中。
前提
首先请确认已经正确安装、配置了 CDH,并且正常运行。
MR 概览
Hadoop MapReduce是一个开源的计算框架,运行在其上的应用通常可在拥有几千个节点的集群上并
行处理海量数据(可以使 P 级的数据集)。
MR作业通常将数据集切分为独立的 chunk ,这些 chunk 以并行的方式被 map tasks 处理。 MR框架对
map的输出进行排序,然后将这些输出作为输入给 reduce tasks 处理。典型的方式是作业的输入和
最终输出都存储在分布式文件系统 (HDFS)上。
通常部署时计算节点也是存储节点, MR框架和 HDFS运行在同一个集群上。这样的配置允许框架在集
群的节点上有效的调度任务, 当然待分析的数据已经在集群上存在, 这也导致了集群内部会产生高聚
合带宽现象(通常我们在集群规划部署时就需要注意这样一个特点)。
MapReduce框架由一个 Jobracker (通常简称 JT )和数个 TaskTracker (TT)组成(在 cdh4 中如果使
用了 Jobtracker HA特性,则会有 2 个 Jobtracer ,其中只有一个为 active ,另一个作为 standby 处
于 inactive 状态)。 JobTracker 负责在所有 tasktracker 上调度任务,监控任务并重新执行失败的
任务。所有的 tasktracker 执行 jobtracker 分配过来的任务。
应用至少需要制定输入、输出路径,并提供实现了适当接口和 ( 或 ) 抽象类的 map和 reduce 函数。这
些路径和函数以及其他的任务参数组成了任务配置对象( job configuration )。Hadoop 任务客户端
提交任务 (jar 包或者可执行程序等) 和配置对象到 JT。JT 将任务实现和配置对象分发到数个 TT (由
JT 分配),调度、监控任务,并向客户端返回状态和检测信息。
Hadoop 由 JavaTM实现 , 用户可以使用 java 、基于 JVM的其他语言或者以下的方式开发 MR应用:
Hadoop Streaming- 允许用户以任何一种可执行程序(如 shell 脚本)实现为 mapper和
( 或)reducer 来创建和运行 MR任务。
Hadoop Pigs – 一种兼容 SWIG( 不基于 JNITM) 的 C++ API,用来实现 MapReduce应用。
北京尚学堂 -cctv 央视网广告合作伙伴,专业 IT 培训机构 , 口碑最好的 java 培训、 iOS 培训、android 培训、 hadoop 大数
据培训、 web 前端培训机构, 0 元入学,先就业后付款,平均就业薪水 9500 以上
输入和输出
MapReuce框架内部处理的是 kv 对(key-value pair) ,因为 MR将任务的输入当做一个 kv 对的集合,
将输出看做一个
您可能关注的文档
- 三实小网格化监督管理工作流程.pdf
- 三下信息技术进度计划(罗雅菊).pdf
- 厦门市技师高级技师职业资格考评申报表.pdf
- 山东省淄博市2013届高三第一次模拟考试文科数学.pdf
- 山世光-深度学习进展简介.pdf
- 山西省太原市2013届高三下学期第一次模拟考试数学(理)试题Word版(附答案).pdf
- 山西省太原市2013届高三下学期第一次模拟考试数学(理)试题Word版含答案.pdf
- 陕西省西安市蓝田县焦岱镇七年级数学下册4.3探索三角形全等的条件教案4(新版)北师大版.pdf
- 陕西省西工大附中2011届高三第一次适应性训练(数学文)1.pdf
- 汕头市2013年普通高中高三数学一模试题及答案(理).pdf
最近下载
- 租山地合同范本.docx VIP
- 内燃机 气门弹簧 产品质量分等分级规范.pdf VIP
- 继承和弘扬伟大抗战精神今年是中国人民抗日战争暨世界反法西斯战争胜利80周年.pptx VIP
- 新2025年推普周班会.ppt
- 2025山东枣庄市口腔医院合同制专业技术人员招聘23人笔试备考试题及答案解析.docx VIP
- 2025山东枣庄市口腔医院合同制专业技术人员招聘23人笔试参考题库附答案解析.docx VIP
- 福建省福州华伦中学2023-2024学年九年级上学期月考数学试题.pdf VIP
- 精通版5年级上册英语全册教学课件(2021年秋修订).pptx
- DCS在电厂热工控制系统中的应用与管理维护.docx VIP
- 设计符号学提喻.ppt VIP
文档评论(0)