主流大数据采集平台架构对比分析任何完整的大数据平台,一般包括以下的几个过程:数据采集–数据存储–数据处理–数据展现(可视化,报表和监控)。其中,「数据采集」是所有数据系统必不可少的,随着大数据越来越被重视,「数据采集」的挑战也变的尤为突出。这其中包括:数据源多种多样 数据量大 变化快 如何保证数据采集的可靠性的性能 如何避免重复数据 如何保证数据的质量今天我们也来看看主流的几个数据采集平台,重点关注它们是如何做到高可靠,高性能和高扩展。Apache FlumeFlume 是 Apache 旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。 Flume 使用 JRuby 来构建,所以依赖 Java 运行环境。Flume 最初是由 Cloudera 的工程师设计,用于合并日志数据的系统,后来逐渐发展用于处理流数据事件。Flume 设计成一个分布式的管道架构,可以看作在数据源和目的地之间有一个 Agent 的网络,支持数据路由。每一个 agent 都由 Source,Channel 和 Sink 组成。SourceSource 负责接收输入数据,并将数据写入管道。它支持 HTTP、JMS、RPC、NetCat、Exec、Spooling Directory。其中 Spooling 支持监视一个目录或者文件,解析其中新生成的事件。ChannelChannel 存储,缓存
原创力文档

文档评论(0)