大数据应用与管理手册.docxVIP

下载本文档

2
0
约3.3万字
约 49页
2026-06-08 发布于江西
举报

大数据应用与管理手册.docx

大数据应用与管理手册

第1章大数据体系架构与基础概念

1.1数据生命周期全貌

数据产生：企业通过CRM系统自动记录客户登录行为，每次登录时间、IP地址及页面停留时长均作为原始数据，这些数据以JSON格式存储在本地服务器文件中。数据抽取：ETL引擎每日凌晨2点运行，从上述JSON文件中提取用户ID和访问路径，将其转换为数据库中的标准用户表结构，并同步至数据湖。

数据清洗：系统自动识别并去除重复登录记录，剔除异常高频率的访问IP，同时修正因网络波动导致的字段缺失，确保数据一致性。数据存储：清洗后的数据按时间戳分为2023Q1、2023Q2等时间切片，分别存储在对象存储桶中，其中冷数据迁移至对象存储的归档层。数据处理：Spark集群对数据进行实时计算，利用滑动窗口算法分析过去7天的用户留存率，并将计算结果写入特征工程表。

数据归档：当用户活跃度低于阈值30天，系统自动触发归档策略，将相关数据副本保留1年，其余数据在3年后进行物理删除，以节省存储成本。

1.2核心数据要素分类

数据要素是大数据应用的基础资源，根据其在业务中的价值和性质，通常被划分为结构化、半结构化和非结构化三大类。结构化数据是指存储在数据库中的有固定格式的记录，如财务报表、库存清单，这类数据查询速度快，适合精确匹配和统计计算。半结构化数据介于结构化与非结

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

大数据应用与管理手册.docxVIP