Hadoop管理系统探讨与实现.docVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop管理系统探讨与实现

Hadoop管理系统研究与实现   【摘要】由于信息爆炸时代的到来,信息目前呈级数级增长,因此大数据在各行业应用变得越来越普遍。Apache Hadoop作为一个大数据开源项目得到了广泛的应用和部署。典型的一个Hadoop大数据平台包括ZooKeeper、HDFS、Yarn、Hbase、Hive和Impala等应用。在数十台甚至上百台节点上部署和监控大数据相关应用是一个繁琐的任务。本文针对大数据平台自动化部署和图形化管理进行了分析与研究,最终实现一个大数据平台管理系统 【关键字】Hadoop 大数据平台 部署 配置 监控 引言 随着时代的进步,我们目前已进入信息时代、云时代。单个企业的信息数据已经突破TB级,达到PB(1024TB)级别。通过传统的关系数据库分析这些结构化或者半结构化数据需要耗费较高的人力、物力和财力 为应对这种场景大数据技术应运而生,大数据技术可以通过构建在廉价服务器上的应用对海量数据进行全面分析,以支持企业决策 Apache Hadoop是Google大数据技术一个开源实现,具有高扩展性、高效性、高容错性、低成本以及易于虚拟化等特性,是目前行业事实的应用标准。Hadoop大数据生态圈核心包括Zookeeper、Hbase、Hive、Impala等应用。通过手工在数十甚至上百个节点上部署这些应用是一个非常复杂的工作,需要修改操作系统内核参数、网络配置以及Haoop本身的参数。本文通过研究、构建大数管理系统来解决这个问题 一、典型的Hadoop管理平台 目前典型Hadoop管理平台主要的代表有:Apache开源项目Ambari,国际顶级大数据公司Cloudera的ClouderaManager以及国内各大数据应用推出的Hadoop管理平台 Ambari优势是Apache的顶级开源项目,易于安装,简单易用。但是缺点同样明显,缺少技术支持和快速的需求响应,没有完备的日志系统和用户、安全管理系统 Cloudera Manager由Cloudera公司研发支持CDH(Clouderas Distribution Including Apache Hadoop)的管理平台。Cloudera大数据研发能力和实施经验丰富,CM从功能、易用性等方面都是行业标杆 国内大数据应用管理系统能够快速响应需求,同时能够紧密结合用户应用进行定制开发。具有鲜明的特点和优势 二、Hadoop管理平台研究 考虑到Hadoop部署管理的复杂性,一般Hadoop管理平台需要具有以下几个功能:自动化部署、配置功能、性能监控、告警功能、日志管理和安全管理等 2.1自动化部署 Hadoop的自动化部署是首先要解决的问题,有了自动化部署,Hadoop才有可能在大规模节点上部署。目前公开资料显示国内有达到4000节点 规模的Hadoop应用,手工在这种规模的节点上进行应用部署是个不可能完成的任务 考虑到服务器为优化性能,可能不安装GUI组件。因此自动化部署部分需要考虑支持命令行安装功能 2.2配置管理 配置部分也是Hadoop必须的功能之一。由于Hadoop各应都有配置文件,而且各应用之间还存在关联关系。同时和组网、主机IP以及主机名都相关,整个配置关系相当复杂 其中图形化配置、自定义配置和配置回滚等功能为配置管理的关键功能 2.3性能监控 性能监控部分主要提取Hadoop组件的性能数据,通过加工后,按照用户需求进行展示。包括Hadoop应用、网络及硬件性能 考虑到管理系统存在和第三方系统对接的情况,性能监控需要提供北向接口。可以是SNMP或者Ftp形式 2.4告警功能 通过告警功能用户可以及时发现系统异常情况,进而采取措施,保障系统稳定运行。告警功能需要及时、准确。同时能够以SNMP、邮件或者短信形式及时将告警信息转发到相关干系人 2.5日志/安全管理 日志管理需要提供详细的操作、运行记录。以便在出现问题和日常维护中发现和定位问题。良好的日志管理系统可以在运维中起到事半功倍的效果 安全管理部分主要包括用户、用户组管理、在线用户管理等。同时需要结合Hadoop应用的权限管理,比如任务提交、数据访问以及资源配额等 三、Hadoop管理平台实现 Hadoop管理台架构示意图如图1 考虑到兼容和易用性,管理平台客户端采用B/S(Browset/Serer)结构,支持IE、Chrome和Firefox浏览器 最上层为功能组件层,主要是用户界面,提供各种管理功能。用户通过这些功能来部署、监控和管理Hadoop组件 中间层为抽象的配置、性能和管理功能框架层。功能框架层带来的好处是通过简单增加配置文件中的配置项和少许的代码开

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档