大数据应用与分析手册.docx

大数据应用与分析手册

第1章大数据应用与分析手册

1.1云原生数据湖与数据仓库演进

数据湖是专为存储海量非结构化数据而生的基础设施,它摒弃了传统数据仓库的“先建模后存储”模式,采用“存储即计算”的架构。在实际部署中,企业通常会在云平台上配置阿里云OSS或AWSS3作为湖存储端点,将原始日志、视频、图片等数据直接存入,无需预先进行复杂的ETL清洗,从而大幅降低数据获取成本。数据仓库则侧重于结构化数据的整合与多维分析,它通过数据层(如Hive或Spark)进行批处理和实时计算,将数据湖中的原始数据经过清洗、转换和加载(ETL)后,按主题域(如销售、用户)进行分层存储

文档评论(0)

1亿VIP精品文档

相关文档