- 2
- 0
- 约3.3万字
- 约 49页
- 2026-06-08 发布于江西
- 举报
大数据应用与管理手册
第1章大数据体系架构与基础概念
1.1数据生命周期全貌
数据产生:企业通过CRM系统自动记录客户登录行为,每次登录时间、IP地址及页面停留时长均作为原始数据,这些数据以JSON格式存储在本地服务器文件中。数据抽取:ETL引擎每日凌晨2点运行,从上述JSON文件中提取用户ID和访问路径,将其转换为数据库中的标准用户表结构,并同步至数据湖。
数据清洗:系统自动识别并去除重复登录记录,剔除异常高频率的访问IP,同时修正因网络波动导致的字段缺失,确保数据一致性。数据存储:清洗后的数据按时间戳分为2023Q1、2023Q2等时间切片,分别存储在对象存储桶中,其中冷数据迁移至对象存储的归档层。数据处理:Spark集群对数据进行实时计算,利用滑动窗口算法分析过去7天的用户留存率,并将计算结果写入特征工程表。
数据归档:当用户活跃度低于阈值30天,系统自动触发归档策略,将相关数据副本保留1年,其余数据在3年后进行物理删除,以节省存储成本。
1.2核心数据要素分类
数据要素是大数据应用的基础资源,根据其在业务中的价值和性质,通常被划分为结构化、半结构化和非结构化三大类。结构化数据是指存储在数据库中的有固定格式的记录,如财务报表、库存清单,这类数据查询速度快,适合精确匹配和统计计算。半结构化数据介于结构化与非结
原创力文档

文档评论(0)