- 1
- 0
- 约1.13万字
- 约 30页
- 2026-05-14 发布于广东
- 举报
大数据处理基础流程与实际应用场景
一、大数据处理基础流程
1.数据收集
数据来源:可以是结构化数据(如数据库)、半结构化数据(如日志文件、XML)、非结构化数据(如文本、图像、视频)
数据采集方式:API接口、爬虫技术、IoT设备、日志收集器
2.数据存储
数据存储类型:
分布式文件系统:HDFS
时序数据库:InfluxDB
队列系统:RabbitMQ,Kafka
存储架构:
一层存储:原始数据(HDFS)
二层存储:处理后数据(HBase,Hive)
三层存储:热数据(内存缓存)
3.数据处理
批处理:
MapReduce
SparkBatch
Hive
流处理
原创力文档

文档评论(0)