- 1
- 0
- 约2.49万字
- 约 37页
- 2026-04-19 发布于江西
- 举报
大数据可视化分析与展示手册
第1章数据基础与清洗规范
1.1数据源架构与接入策略
数据源架构需明确区分原始采集层(RawLayer)与标准化存储层(StandardLayer),通过ETL管道实现数据异构化。对于视频流媒体,需采用Kafka作为实时消息队列,将视频流媒体协议(HLS/DASH)转换为JSON格式;对于结构化报表,则通过JDBC连接数据库,将Oracle12c的分区表按时间分区(PARTITIONBYYEAR-MONTH-DAY)进行扁平化,确保接入层能统一处理不同厂商的API接口差异。接入策略需定义“宽表”与“窄表”的转换逻辑,避免数据冗余。在接入阶段,应先构建宽表(WideTable),包含用户ID、设备指纹、时间戳、IP地址及地理位置等字段,随后通过T+1调度任务将宽表按业务域(如营销域、运营域)进行宽表转窄表(NarrowTable)的转换,将宽表中的设备指纹聚合为唯一的设备ID,从而解决数据孤岛问题。
对于多源异构数据,需建立统一的数据接入网关(DataIngestionGateway),屏蔽底层协议差异。当从第三方SaaS平台导入数据时,网关需自动识别数据格式(如CSV、Parquet),并依据配置自动调整字段映射关系(FieldMapping),例如将SaaS平台的“订单号”映
原创力文档

文档评论(0)