大数据技术应用与数据分析手册.docx

大数据技术应用与数据分析手册

第1章数据采集与处理

1.1数据源与数据格式

数据源是数据采集的起点,常见的数据源包括结构化数据(如数据库、关系型数据库、NoSQL数据库)、非结构化数据(如日志文件、文本文件、图片、视频)、半结构化数据(如XML、JSON、CSV文件)以及实时数据流(如MQTT、Kafka、Flume等)。在实际应用中,数据源可能来自多个渠道,如企业内部系统、第三方API、物联网设备、用户行为日志等。数据格式决定了数据的可读性和可处理性。常见的数据格式包括:

(1)结构化数据:如关系型数据库中的表格,每列有明确的类型和名称,数据以行和列的形式存储。

(2)非结

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档