part-大数据仓库与挖掘平台-Hive数据仓库.pptx

Hive数据仓库概念数据仓库是一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持决策。它主要的目标是分析和处理数据,和传统的操作型事务处理有很大区别ETL:必须在某个时点从操作型系统获取数据并将其导入数据仓库,这个过程就是通常所说的抽取(extract)、转换(transform)和装载(load)过程,简称ETL过程数据需求:通过数据仓库,既可以周期性地回答已知的问题(如报表等),也可以进行即席查询(ad-hoc queries)数据仓库与数据库对比多维数据模型基础数据仓库主要有规范化数据模型、多维数据模型、Data Vault数据模型等建模方法,其中前两种使用最为广泛规范化模型用于企业级数据仓库(EDW)建模,而多维模型多用于数据集市建模规范化模型对于数据库设计者来说非常熟悉,其核心思想就是消除数据冗余以保证数据一致性和事务处理的性能:1NF,2NF,3NF对于多维模型最简单的描述是,按照事实表、维度表来构建数据仓库或数据集市,这种模型被人们熟知的有星型和雪花型。多维数据模型基础星型模型是部署在关系数据库管理系统之上的多维结构,主要包含事实表,以及通过主键/外键关系与之关联的维度表。在星型模型实施中,所有维度级别的数据存储在单个表或视图中。雪花模型就是将维度层次进一步规范化为子维度。在雪花模型实施中,使用多个表或视图来存储维度级别数据。单独的数据库表或视图存储与维

文档评论(0)

1亿VIP精品文档

相关文档