- 1、本文档共62页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hadoop分享讲解
hadoop分享
——副标题abcdefg
『演讲人』 刘朔龙
『时 间』 2014.07.28
2
目录
Hadoop各组件简介--zookeeper
3
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
ZooKeeper代码版本中,提供了分布式独享锁、选举、队列的接口。其中分布锁和队列有Java和C两个版本,选举只有Java版本。
Hadoop各组件简介--HDFS
Hadoop是一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
文件按照块进行划分存储在多台机器上,并通过副本的方式保证高可用。
4
Hadoop各组件简介--hbase
HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它利用了Hadoop所提供的分布式数据存储功能,适合于非结构化数据存储的数据库;基于列的而不是基于行的模式。
Hbase是Hadoop上的一个键值对的NoSQL数据库,其主要特性是支持高并发文本数据写入和读取,舍弃了关系数据中的事务、关联、复杂索引等。
5
Hadoop各组件简介--hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
6
Hadoop各组件简介--impala
Impala是一个在Hadoop集群上运行的本地SQL查询引擎,提供原始HDFS数据和HBase数据库的简单查询访问。
Impala是另一个SQL解析引擎,但其绕过了MapReduce,利用自己的执行引擎,充分利用内存来直接访问HDFS上的文件。Impala的使用需要用到Hive的元数据。
7
Hadoop各组件简介
8
Hadoop部署前的准备—规划
9
根据主机数量和主机资源规划hadoop部署方案,以安徽移动流量hadoop为例:
Hadoop部署前的准备--版本
10
使用的各组件版本:
zookeeper-3.4.5-cdh5.0.0
hadoop-2.3.0-cdh5.0.0
hbase--cdh5.0.0
hive-0.12.0-cdh5.0.0
impala-1.3.0-cdh5.0.0
zookeeper-3.4.5-cdh5.0.0
Hadoop部署前的准备—操作系统环境
11
1.操作系统版本:RHEL6.4
2.关闭防火墙
3.关闭NetworkManager服务
4.设置IP
5.关闭Selinux
修改 /etc/sysconfig/selinux
SELINUX=disabled
生效命令:setenforce 0
6.调整最大打开文件数65535
/etc/security/limits.conf
* soft nofile 65535
* hard nofile 65535
Hadoop部署前的准备—操作系统环境
7.调整最大进程数65536
/etc/security/limits.d/90-nproc.conf
* soft nproc 65536
8.配置NTP
/etc/ntp.conf
server 4
启服务:service ntpd start
开机自启动:chkconfig ntpd on
12
Hadoop部署前的准备--主机环境
1、本次使用主机:CPU:48C 内存:128G 磁盘:600G*2+4000G*6
2、文件系统
600G*2 做raid 1 :安装操作系统和/e3base
4000G*6,使用裸盘,每个裸盘创建一个文件系统,存储hdfs用
/chunk1 /chunk2 /chunk3 /
您可能关注的文档
- 压下规程设计讲述.doc
- 优秀团队不是人多而是心齐2016.3.25精要.pptx
- 优秀员工十大心态培训精要.ppt
- GB2828培训讲解.ppt
- 历年通广实务真题案例解析讲述.ppt
- 历史:第5课_《古希腊民主政治》讲述.ppt
- 厉B1M5Grammar和数字读法讲述.ppt
- 历史遗产由来讲述.ppt
- GGD、_GCK、GCS、MNS、MCS的区别讲解.doc
- 压力容器(判断)讲述.doc
- 中国国家标准 GB/T 18233.4-2024信息技术 用户建筑群通用布缆 第4部分:住宅.pdf
- GB/T 18233.4-2024信息技术 用户建筑群通用布缆 第4部分:住宅.pdf
- GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计.pdf
- 《GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计》.pdf
- 中国国家标准 GB/T 18978.210-2024人-系统交互工效学 第210部分:以人为中心的交互系统设计.pdf
- GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置.pdf
- 《GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置》.pdf
- 中国国家标准 GB/T 16649.2-2024识别卡 集成电路卡 第2部分:带触点的卡 触点的尺寸和位置.pdf
- GB/T 17889.4-2024梯子 第4部分:铰链梯.pdf
- 《GB/T 17889.4-2024梯子 第4部分:铰链梯》.pdf
文档评论(0)