大数据hadoop平台 - 青云qingcloud 社区.pdf

下载文档 降价啦

19
0
约1.2万字
约 84页
2017-09-06 发布于天津
举报
版权申诉
保障服务

大数据hadoop平台 - 青云qingcloud 社区.pdf

1、本文档共84页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据hadoop平台 - 青云qingcloud 社区

大数据Hadoop平台 Jordan Li 08/08/2016 Agenda ►Hadoop 平台核心架构 ►HDFS主要概念、架构与运行机制 ►演示：HDFS常用命令配置 ►Yarn 主要概念、架构与运行机制 ►演示：Yarn 常用命令配置 ►Mapreduce编程入门演示 ►Mapreduce调优最佳实践 ►Hadoop Benchmark性能测试 Hadoop简介 ►一个可扩展的、容错性强的分布式文件系统和并行计算环境 ►让用户可以便捷的处理海量数据 ►Apache软件基金会 ►Google inspired Yahoo! ►谁在用？中移动, Intel, IBM, Facebook, Amazon, BAT ►用来做什么？日志分析、倒排索引、排序、图像转换、广告分析... Hadoop架构 HDFS 简介 ►Hadoop Distributed File System ►为大文件设计（海量小文件问题） ►Write-once-read-many访问模型 ►不建议大量随机读，不支持对文件修改 ►High throughput .vs. low latency ►Commodity hardware – 错误检测/快速恢复 HDFS主要概念 ►Namenode ►SecondaryNamenode ►StandbyNamenode ►Datanode ►Client ►Block, Replication Apache Hadoop 2.7.1 – HDFS Architecture - - - HDFS的文件操作 ►读取文件： lClient向NameNode发起文件读取的请求 l NameNode返回文件存储的DataNode的信息 lClient读取文件信息 ►写入文件 lClient向Namenode发起文件写入的请求 l Namenode根据文件大小和block配置大小返回Datanode的信息 lClient将文件划分为多个block ，按地址依次写入Datanode HDFS文件读取基本过程 HDFS 文件写入基本过程演示：HDFS 基本操作配置文件 ►sbin/start-dfs.sh stop-dfs.sh ►bin/hdfs dfs -ls/-mkdir/-rm/-put/-get ►bin/hdfs dfsadmin -report/-safemode/-refreshNodes ►bin/hdfs fsck -files -blocks ►bin/hdfs getconf -confKey property ►sbin/start-balancer.sh ►core-site.xml, hdfs-site.xml, hadoop-env.sh HDFS High Availability YARN 产生背景 ►MapReduce V1的几个缺陷 l扩展性受限 l单点故障 l难以支持MR之外的计算 ►多计算框架各自为战 l MR: 离线计算 lStorm: 实时计算 lSpark: 内存计算 YARN模块组成 YARN 架构 YARN容错机制 YARN资源调度器 YARN运行流程分析演示：Yarn 基本操作配置文件 ►sbin/start-yarn.sh stop-yarn.sh ►bin/yarn node ►bin/yarn application ►yarn-env.sh, yarn-site.xml MapReduce简介 l Nutch项目-- 开源的网络搜索引擎 l Google公司发表的Mapreduce论文 l Doug Cutting基于java设计开发了mapreduce并行计算框架和系统,集成在Hadoop项目中 l成为Apache旗下顶级项目 l极为成功,广为接受,易于使用的大数据并行处理技术. 基本思想 l 分治法: 将一个复杂问题,分成若干个简单的子问题进行解决，然后对子问题的结果进行合并,得到原有问题的解. l l Map: 将大任务拆分成小的子任务, 并且完成子任务的计算 l Red