- 5
- 0
- 约1.4万字
- 约 15页
- 2017-01-01 发布于重庆
- 举报
淺谈chukwa在数据收集处理方面的应用
谈 chukwa 在数据收集处理方面的应用
数据收集一直以来都是一个很重要的话题,在各行各业中,有各种方式在进行着数据收集工作,而本篇将要介绍的是与 Hadoop 集成的数据收集工具 Chukwa,它有几个非常吸引人的特点:它架构清晰,部署简单;收集的数据类型广泛,具有很强的扩展性;与 Hadoop 无缝集成,能完成海量数据的收集与整理。本文将从最基本的概念讲起,随后将逐步介绍如何搭建一个功能强大的数据收集平台。相信对大家在日后的工作中能带来很大的帮助。
李 平
2011 年 9 月 23 日
Chukwa 简介
Chukwa 的架构设计
Chukwa 环境搭建与部署
基本命令介绍
内部数据处理时序介绍
如何支持新的数据类型
如何自定义数据处理模块
结束语
参考资料
HYPERLINK /developerworks/cn/opensource/os-cn-chukwa/ \l icomments
HYPERLINK /developerworks/cn/opensource/os-cn-chukwa/ \l authorN1001B
HYPERLINK /developerworks/cn/opensource/os-cn-chukwa/ \l close
Chukwa 简介
什么是 Chukwa,简单的说它是一个数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。Chukwa 本身也提供了很多内置的功能,帮助我们进行数据的收集和整理。Chukwa 应用场景介绍 为了更加简单直观的展示 Chukwa,我们先来看一个假设的场景。假设我们有一个规模很大 ( 牵扯到 Hadoop 的总是很大。。。。) 的网站,网站每天产生数量庞大的日志文件,要收集,分析这些日志文件可不是件容易的事情,读者可能会想了,做这种事情 Hadoop 挺合适的,很多大型网站都在用,那么问题来了,分散在各个节点的数据怎么收集,收集到的数据如果有重复数据怎么处理,如何与 Hadoop 集成。如果自己编写代码完成这个过程,一来需要花费不小的精力,二来不可避免的会引入 Bug。这里就是我们 Chukwa 发挥作用的时候了,Chukwa 是一个开源的软件,有很多聪明的开发者在贡献着自己的智慧。它可以帮助我们在各个节点实时监控日志文件的变化,增量的将文件内容写入 HDFS,同时还可以将数据去除重复,排序等,这时 Hadoop 从 HDFS 中拿到的文件已经是 SequenceFile 了。无需任何转换过程,中间繁杂的过程都由 Chukwa 帮我们完成了。是不是很省心呢。这里我们仅仅举了一个应用的例子,它还可以帮我们监控来自 Socket 的数据,甚至定时执行我们指定的命令获取输出数据,等等,具体的可以参看 Chukwa 官方文档。如果这些还不够,我们还可以自己定义自己的适配器来完成更加高级的功能。稍后我们将看到如何定义自己的适配器来做自己想做的事情。怎么样,是不是有些心动了呢。
Chukwa 的架构设计
前面我们简单说了他的一些用途,讲的比较概括,大家不一定能明白,它到底是怎么帮助我们完成功能的,下来我们就先从他的架构设计角度来看看。我们依然先看一张图。
图 1. 架构示意图
我们还是以刚才提到的日志的例子来看。
这里我们先介绍几个新名词:
Agent
什么是 Agent,agent 是驻守在各个节点上的负责收集数据的程序。Agent 又由若干 adapter 组成。adapter 运行在 Agent 进程以内,执行实际收集数据的工作,而 Agent 则负责 adapter 的管理。
Collector
什么是 Collector,Collector 收集各个 Agent 传来的数据,并将这些数据写入 HDFS。
了解了这两个关键的名词之后,也许有读者已经在脑海中有了大致的数据流程图了。是的,它就是这么简单:数据被 Agent 收集,并传送到 Collector,由 Collector 写入 HDFS,然后由 Map-Reduce job 进行数据的预处理。
Chukwa 环境搭建与部署
这里我们介绍一下如何安装,部署,应用 Chukwa
1. 前提条件
Linux 环境
这里我们使用 Red Hat
JDK 使用 1.6JDK
系统中需要支持 SSH
其他要求
2. 下载 chukwa
这里给出的是其中一个镜像的下载地址 wget /apache/hadoop/chukwa/chukwa-0.4.0/chukwa-0.4.0.tar.gz 这里的链接是 0.4.0 版本的 chukwa. 其他版本可以从官方网站下载。官网地址:HYPERL
您可能关注的文档
- 淺论电气干扰对数控设备的危害.doc
- 淺论电视台的新闻管理电影论文.doc
- 淺论电视新闻节目故事化呈现中的人文关怀定稿.doc
- 淺论白丽小区社区文化建设.doc
- 淺论电视节目研发的路径.doc
- 淺论监狱严格执法与服务罪犯改造(正文).doc
- 淺论监听在侦查中的应用.doc
- 淺论石头在《红楼梦》中的叙事功能.doc
- 淺论社会主义法治理念的理论基础.doc
- 淺论社会资产外延扩大再生产实现过程的规律及其应用.doc
- 2025-2026学年天津市和平区高三(上)期末数学试卷(含解析).pdf
- 2025-2026学年云南省楚雄州高三(上)期末数学试卷(含答案).pdf
- 2025-2026学年甘肃省天水市张家川实验中学高三(上)期末数学试卷(含答案).docx
- 2025-2026学年福建省厦门市松柏中学高二(上)期末数学试卷(含答案).docx
- 2025-2026学年广西钦州市高一(上)期末物理试卷(含答案).docx
- 2025-2026学年河北省邯郸市临漳县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省石家庄二十三中七年级(上)期末历史试卷(含答案).docx
- 2025-2026学年海南省五指山市九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省唐山市玉田县九年级(上)期末化学试卷(含答案).docx
- 2025-2026学年河北省邢台市市区九年级(上)期末化学试卷(含答案).docx
最近下载
- 产后骨盆修复全流程指导手册.docx VIP
- HG∕T 2568-2021 工业偏硅酸钠.pdf
- 2025年鄂尔多斯市特岗教师招聘考试真题汇编附答案解析.docx VIP
- 24小时客服电话:010-82311666免费咨询热线:4.doc VIP
- 2020ACLS学员课课前测试中文版试题+答案.pdf VIP
- 髌骨脱位康复护理新进展.pptx VIP
- 急救医学-第四章心悸.ppt VIP
- 高中数学必修第四册第十一章综合测试01含答案解析.pdf VIP
- 2022年高考物理核心高频考点专题22 圆周运动的轻绳、轻杆模型(解析版).pdf VIP
- 马工程-中国古代文学史(第二版)上册第三编魏晋文学全套PPT课件50109.pptx
原创力文档

文档评论(0)