2022最新数据仓库培训课件 大厂数仓项目复盘案例全拆解.pptxVIP

  • 2
  • 0
  • 约6.34千字
  • 约 10页
  • 2026-04-17 发布于北京
  • 举报

2022最新数据仓库培训课件 大厂数仓项目复盘案例全拆解.pptx

第一章数据仓库项目背景与挑战第二章数据仓库现状技术栈拆解第三章大厂数仓改造方案设计第四章数据仓库性能优化实践第五章数据治理与质量体系建设第六章项目实施经验总结与展望

01第一章数据仓库项目背景与挑战

盛世集团数据现状引入盛世集团作为一家年营收超千亿的多元化大型集团,业务涵盖零售、金融、制造三大板块,员工数量超过10万人。集团的数据仓库建设始于2019年,采用Hadoop+Spark技术栈,但由于技术选型、架构设计、流程管理等多方面问题,数据更新延迟高达24小时,无法满足业务实时决策需求。以零售板块为例,由于无法及时获取促销活动数据,某次双十一活动的ROI仅为15%,远低于行业平均30%的水平。这一现状暴露了集团数据仓库在性能、时效性、应用价值等方面的严重不足,亟需进行全面的改造升级。

数据现状分析业务板块数据需求零售板块:促销活动数据实时视图需求数据更新延迟问题ERP系统抽取耗时8小时,CRM系统6小时,SCM系统5小时数据质量问题数据缺失率15%,重复数据8%,错误数据3%数据量级与增长趋势日均数据量1TB,其中结构化数据60%,半结构化数据30%,非结构化数据10%数据应用场景零售促销分析、金融风险监控、制造设备预警现有数据架构问题Hadoop生态组件陈旧,缺乏实时计算框架,数据湖与数据仓库分离

数据现状可视化数据更新延迟分析各业务系统数据抽取耗时对比数据质量问题

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档