hadoop分享讲解.pptx

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hadoop分享讲解

hadoop分享 ——副标题abcdefg 『演讲人』 刘朔龙 『时 间』 2014.07.28 2 目录 Hadoop各组件简介--zookeeper 3 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。 ZooKeeper代码版本中,提供了分布式独享锁、选举、队列的接口。其中分布锁和队列有Java和C两个版本,选举只有Java版本。 Hadoop各组件简介--HDFS Hadoop是一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。 文件按照块进行划分存储在多台机器上,并通过副本的方式保证高可用。 4 Hadoop各组件简介--hbase HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它利用了Hadoop所提供的分布式数据存储功能,适合于非结构化数据存储的数据库;基于列的而不是基于行的模式。 Hbase是Hadoop上的一个键值对的NoSQL数据库,其主要特性是支持高并发文本数据写入和读取,舍弃了关系数据中的事务、关联、复杂索引等。 5 Hadoop各组件简介--hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 6 Hadoop各组件简介--impala Impala是一个在Hadoop集群上运行的本地SQL查询引擎,提供原始HDFS数据和HBase数据库的简单查询访问。 Impala是另一个SQL解析引擎,但其绕过了MapReduce,利用自己的执行引擎,充分利用内存来直接访问HDFS上的文件。Impala的使用需要用到Hive的元数据。 7 Hadoop各组件简介 8 Hadoop部署前的准备—规划 9 根据主机数量和主机资源规划hadoop部署方案,以安徽移动流量hadoop为例: Hadoop部署前的准备--版本 10 使用的各组件版本: zookeeper-3.4.5-cdh5.0.0 hadoop-2.3.0-cdh5.0.0 hbase--cdh5.0.0 hive-0.12.0-cdh5.0.0 impala-1.3.0-cdh5.0.0 zookeeper-3.4.5-cdh5.0.0 Hadoop部署前的准备—操作系统环境 11 1.操作系统版本:RHEL6.4 2.关闭防火墙 3.关闭NetworkManager服务 4.设置IP 5.关闭Selinux 修改 /etc/sysconfig/selinux SELINUX=disabled 生效命令:setenforce 0 6.调整最大打开文件数65535 /etc/security/limits.conf * soft nofile 65535 * hard nofile 65535 Hadoop部署前的准备—操作系统环境 7.调整最大进程数65536 /etc/security/limits.d/90-nproc.conf * soft nproc 65536 8.配置NTP /etc/ntp.conf server 4 启服务:service ntpd start 开机自启动:chkconfig ntpd on 12 Hadoop部署前的准备--主机环境 1、本次使用主机:CPU:48C 内存:128G 磁盘:600G*2+4000G*6 2、文件系统 600G*2 做raid 1 :安装操作系统和/e3base 4000G*6,使用裸盘,每个裸盘创建一个文件系统,存储hdfs用 /chunk1 /chunk2 /chunk3 /

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档