2025年大数据应用与挖掘手册.docx

2025年大数据应用与挖掘手册

第1章数据采集与预处理

1.1数据来源与类型

数据来源是数据采集的基础,通常包括结构化数据、非结构化数据、实时数据、历史数据等多种类型。结构化数据如数据库中的表格数据、Excel文件、关系型数据库等,具有明确的字段和数据类型;非结构化数据如文本、图像、视频、音频等,没有固定格式,需通过自然语言处理(NLP)等技术进行处理;实时数据是指在数据时即被采集并处理,如物联网传感器数据、金融交易数据等;历史数据则是存储在数据库中的过去数据,用于分析趋势和模式。数据来源可以来自企业内部系统、外部API接口、社交媒体、政府公开数据、行业报告、用户行为日志等。例如,

文档评论(0)

1亿VIP精品文档

相关文档