Chukwa介绍与安装部署.PDFVIP

  • 148
  • 0
  • 约9.41千字
  • 约 13页
  • 2019-01-01 发布于天津
  • 举报
Chukwa介绍与安装部署.PDF

Chukwa 介绍与安装部署 本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明 显位置给出原文连接,博主为石山园,博客地址为 /shishanyuan 。 该系列课程是应邀实验楼整理编写的,这里需要赞一下实验楼提供了学习的新方式,可以边看博 客边上机实验,课程地址为 /courses/237 【注】该系列所使用到安装包、测试数据和代码均可在百度网盘下载,具体地址为 /s/10PnDs ,下载该PDF 文件 1 搭建环境 部署节点操作系统为CentOS ,防火墙和SElinux 禁用,创建了一个shiyanlou 用户并在系 统根目录下创建/app 目录,用于存放 Hadoop 等组件运行包。因为该目录用于安装 hadoop 等组件程序 ,用户对shiyanlou 必须赋予rwx 权限(一般做法是root 用户在根目录下创建/app 目录,并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiyanlou /app )。 Hadoop 搭建环境:  虚拟机操作系统: CentOS6.6 64 位,单核,1G 内存  JDK :1.7.0_55 64 位  Hadoop :1.1.2 2 Chukwa 介绍 chukwa 是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在 hadoop 的 hdfs 和 map/reduce 框架之上的,继承了 hadoop 的可伸缩性和鲁棒性。Chukwa 还包含 了一个强大和灵活的工具集,可用于展示、监控和分析已收集的数据。 第 1 页 共 13 页 出自石山园,博客地址:/shishanyuan 2.1 Chukwa 架构 其中主要的组件为: 1. agents : 负责采集最原始的数据,并发送给 collectors 2. adaptor : 直接采集数据的接口和工具,一个 agent 可以管理多个 adaptor 的数据采 集 3. collectors :负责收集 agents 收送来的数据,并定时写入集群中 4. map/reduce jobs :定时启动,负责把集群中的数据分类、排序、去重和合并 5. HICC :负责数据的展示 2.2 组件说明  adaptors 和 agents 在每个数据的产生端(基本上是集群中每一个节点上), chukwa 使用一个 agent 来采集它 感兴趣的数据,每一类数据通过一个 adaptor 来实现, 数据的类型(DataType?)在相应的配置中 指定. 默认地, chukwa 对以下常见的数据来源已经提供了相应的 adaptor :命令行输出、log 文件和 httpSender 等等. 这些 adaptor 会定期运行(比如每分钟读一次 df 的结果)或事件驱 动地执行(比如 kernel 打了一条错误日志). 如果这些 adaptor 还不够用,用户也可以方便地 自己实现一个 adaptor 来满足需求。 为防止数据采集端的 agent 出现故障,chukwa 的 agent 采用了所谓的 ‘watchdog’ 机制,会自动重启终止的数据采集进程,防止原始数据的丢失。另一方面, 对于重复采集的数据, 在 chukwa 的数据处理过程中,会自动对它们进行去重. 这样,就可以对于关键的数据在多台机 器上部署相同的 agent,从而实现容错的功能. 第 2 页 共 13 页 出自石山园,博客地址:/shishanyuan  collectors agents 采集到的数据,是存储到 hadoop 集群上的. hadoop 集群擅长于处理少量大文 件,而对于大量小文件的处理则不是它的强项,针对这一点,chukwa 设计了 collector 这个 角色,用于把数据先进行部分合并,再写入集群,防止大量小文件的写入。 另一方面,为防止 collector 成为性能瓶颈或成为单点,产生故障, chukwa 允许和鼓励设置 多个 collector, agents 随机地从 collectors 列表中选择一个 collector 传输数据,如果一个 collector 失败或繁忙

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档