网站大量收购独家精品文档,联系QQ:2885784924

大数据hadoop平台 - 青云qingcloud 社区.pdf

  1. 1、本文档共84页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据hadoop平台 - 青云qingcloud 社区

大数据Hadoop平台 Jordan Li 08/08/2016 Agenda ►Hadoop 平台核心架构 ►HDFS主要概念、架构与运行机制 ►演示:HDFS常用命令配置 ►Yarn 主要概念、架构与运行机制 ►演示:Yarn 常用命令配置 ►Mapreduce编程入门演示 ►Mapreduce调优最佳实践 ►Hadoop Benchmark性能测试 Hadoop简介 ►一个可扩展的、容错性强的分布式文件系统和并行计算环境 ►让用户可以便捷的处理海量数据 ►Apache软件基金会 ►Google inspired Yahoo! ►谁在用?中移动, Intel, IBM, Facebook, Amazon, BAT ►用来做什么? 日志分析、倒排索引、 排序、图像转换、广告分析... Hadoop架构 HDFS 简介 ►Hadoop Distributed File System ►为大文件设计(海量小文件问题) ►Write-once-read-many访问模型 ►不建议大量随机读,不支持对文件修改 ►High throughput .vs. low latency ►Commodity hardware – 错误检测/快速恢复 HDFS主要概念 ►Namenode ►SecondaryNamenode ►StandbyNamenode ►Datanode ►Client ►Block, Replication Apache Hadoop 2.7.1 – HDFS Architecture - - - HDFS的文件操作 ►读取文件: lClient向NameNode发起文件读取的请求 l NameNode返回文件存储的DataNode的信息 lClient读取文件信息 ►写入文件 lClient向Namenode发起文件写入的请求 l Namenode根据文件大小和block配置大小返回Datanode的信息 lClient将文件划分为多个block ,按地址依次写入Datanode HDFS文件读取基本过程 HDFS 文件写入基本过程 演示:HDFS 基本操作配置文件 ►sbin/start-dfs.sh stop-dfs.sh ►bin/hdfs dfs -ls/-mkdir/-rm/-put/-get ►bin/hdfs dfsadmin -report/-safemode/-refreshNodes ►bin/hdfs fsck -files -blocks ►bin/hdfs getconf -confKey property ►sbin/start-balancer.sh ►core-site.xml, hdfs-site.xml, hadoop-env.sh HDFS High Availability YARN 产生背景 ►MapReduce V1的几个缺陷 l扩展性受限 l单点故障 l难以支持MR之外的计算 ►多计算框架各自为战 l MR: 离线计算 lStorm: 实时计算 lSpark: 内存计算 YARN模块组成 YARN 架构 YARN容错机制 YARN资源调度器 YARN运行流程分析 演示:Yarn 基本操作配置文件 ►sbin/start-yarn.sh stop-yarn.sh ►bin/yarn node ►bin/yarn application ►yarn-env.sh, yarn-site.xml MapReduce简介 l Nutch项目-- 开源的网络搜索引擎 l Google公司发表的Mapreduce论文 l Doug Cutting基于java设计开发了mapreduce并行计算框架和系统,集 成在Hadoop项目中 l成为Apache旗下顶级项目 l极为成功,广为接受,易于使用的大数据并行处理技术. 基本思想 l 分治法: 将一个复杂问题,分成若干个简单的子问题进行解决,然后 对子问题的结果进行合并,得到原有问题的解. l l Map: 将大任务拆分成小的子任务, 并且完成子任务的计算 l Red

文档评论(0)

yanpizhuang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档