- 1、本文档共84页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据hadoop平台 - 青云qingcloud 社区
大数据Hadoop平台
Jordan Li 08/08/2016
Agenda
►Hadoop 平台核心架构
►HDFS主要概念、架构与运行机制
►演示:HDFS常用命令配置
►Yarn 主要概念、架构与运行机制
►演示:Yarn 常用命令配置
►Mapreduce编程入门演示
►Mapreduce调优最佳实践
►Hadoop Benchmark性能测试
Hadoop简介
►一个可扩展的、容错性强的分布式文件系统和并行计算环境
►让用户可以便捷的处理海量数据
►Apache软件基金会
►Google inspired Yahoo!
►谁在用?中移动, Intel, IBM, Facebook, Amazon, BAT
►用来做什么? 日志分析、倒排索引、 排序、图像转换、广告分析...
Hadoop架构
HDFS 简介
►Hadoop Distributed File System
►为大文件设计(海量小文件问题)
►Write-once-read-many访问模型
►不建议大量随机读,不支持对文件修改
►High throughput .vs. low latency
►Commodity hardware – 错误检测/快速恢复
HDFS主要概念
►Namenode
►SecondaryNamenode
►StandbyNamenode
►Datanode
►Client
►Block, Replication
Apache Hadoop 2.7.1 – HDFS Architecture
- - -
HDFS的文件操作
►读取文件:
lClient向NameNode发起文件读取的请求
l NameNode返回文件存储的DataNode的信息
lClient读取文件信息
►写入文件
lClient向Namenode发起文件写入的请求
l Namenode根据文件大小和block配置大小返回Datanode的信息
lClient将文件划分为多个block ,按地址依次写入Datanode
HDFS文件读取基本过程
HDFS 文件写入基本过程
演示:HDFS 基本操作配置文件
►sbin/start-dfs.sh stop-dfs.sh
►bin/hdfs dfs -ls/-mkdir/-rm/-put/-get
►bin/hdfs dfsadmin -report/-safemode/-refreshNodes
►bin/hdfs fsck -files -blocks
►bin/hdfs getconf -confKey property
►sbin/start-balancer.sh
►core-site.xml, hdfs-site.xml, hadoop-env.sh
HDFS High Availability
YARN 产生背景
►MapReduce V1的几个缺陷
l扩展性受限
l单点故障
l难以支持MR之外的计算
►多计算框架各自为战
l MR: 离线计算
lStorm: 实时计算
lSpark: 内存计算
YARN模块组成
YARN 架构
YARN容错机制
YARN资源调度器
YARN运行流程分析
演示:Yarn 基本操作配置文件
►sbin/start-yarn.sh stop-yarn.sh
►bin/yarn node
►bin/yarn application
►yarn-env.sh, yarn-site.xml
MapReduce简介
l Nutch项目-- 开源的网络搜索引擎
l Google公司发表的Mapreduce论文
l Doug Cutting基于java设计开发了mapreduce并行计算框架和系统,集
成在Hadoop项目中
l成为Apache旗下顶级项目
l极为成功,广为接受,易于使用的大数据并行处理技术.
基本思想
l 分治法: 将一个复杂问题,分成若干个简单的子问题进行解决,然后
对子问题的结果进行合并,得到原有问题的解.
l
l Map: 将大任务拆分成小的子任务, 并且完成子任务的计算
l Red
您可能关注的文档
- 创意性问题解决技巧-期中后报告更正版.doc
- 创造双赢的亲子互动关系讲师.pdf
- 词法分析停用词消除词干还原term选择索引构建.ppt
- 词汇知识深度对二语词汇习得的影响.pdf
- 词聚类技术研究综述.pdf
- 词类共现频率的mapreduce并行生成方法 - 中国云计算.pdf
- 词类共现频率的mapreduce并行生成方法 - 重庆理工大学学报.pdf
- 磁暴期间增强系统电离层网格模型性能分析3.pdf
- 磁独立六加速度计井斜方位角的测量机理研究倡 - 天然气工业.pdf
- 磁共振化学位移成像定量测量肩袖损伤后冈上肌脂肪性退变 - 放射学实践.pdf
- 2025年光大银行(南阳分行)人员招聘笔试备考试题及答案解析.docx
- 2025年中国农业银行(陕西分行)校园招聘笔试参考题库附答案解析.docx
- 2025年中信银行(沈阳分行)人员招聘笔试备考试题及答案解析.docx
- 2025年山西神池农村商业银行人员招聘笔试备考题库及答案解析.docx
- 2025年光大银行(柳州分行)人员招聘笔试备考试题及答案解析.docx
- 2025年中国农业银行(内蒙古分行)人员招聘笔试备考题库及答案解析.docx
- 2025年齐鲁银行校园招聘笔试参考题库附答案解析.docx
- 2025年中信银行(广州分行)人员招聘笔试备考试题及答案解析.docx
- 2025年中信银行(中山分行)人员招聘笔试备考试题及答案解析.docx
- 2025年中信银行(葫芦岛分行)人员招聘笔试备考试题及答案解析.docx
文档评论(0)