- 3
- 0
- 约2.31千字
- 约 6页
- 2021-11-14 发布于湖南
- 举报
如何从0到1搭建大数据平台
通常大数据平台的架构如上,从外部采集数据到数据处理,数据显现,应用等模块。
数据采集
用户访问我们的产品会产生大量的行为日志,因而我们需要特定的日志采集系统来采集并输送这些日志。Flume是目前常用的开源选择,Flume是Cloudera供应的一个高可用的,高牢靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume供应对数据进行简约处理,并写到各种数据接受方的力量。
对于非实时使用的数据,可以通过Flume直接落文件到集群的HDFS上。而对于要实时使用的数据来说,则可以接受Flume+Kafka,数据直接进入消息队列,经过Kafka将数据传递给实时计算引擎进行处理。
业务数据库的数据量相比访问日志来说小很多。对于非实时的数据,一般定时导入到HDFS/Hive中。一个常用的工具是Sqoop,Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。而对于实时的数据库同步,可以接受Canal作为两头件,处理数据库日志(如binlog),将其计算后实时同步到大数据平台的数据存储中。
数据存储
无论上层接受何种的大规模
原创力文档

文档评论(0)