(54页PPT)数据湖仓基础知识.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据湖仓基础知识

;

数据仓库

数据湖

数据湖仓;

PART数据仓库;

上世纪70年代,关系数据库(传统数据库的主要类型)刚刚崛起时,美国康奈比尔·恩门(BillInnmon,也有译为比尔·因蒙)就开始定义和讨论数据仓库这一术语。

1988年,IBM研究人员巴里·德夫林(BarryDevlin)和鲍尔·(PaulMurphy),联

合发表了文章《商业和信息系统的架构》,其中引入了“商业数据仓库”一词。他们还开发了一种叫做“业务数据仓库”的系统。

几年后,1990年,美国科学家拉尔夫·金博尔(RalphKimball)创立了RedBrickSystems公司,推出专门用于数据仓库的数据库管理系统RedBrickWarehouse。

1991年,比尔·恩门创立了PrismSolutions公司,推出用于开发数据仓库的软件Prism

WarehouseManager。

同年,比尔·恩门正式出版了数据仓库的经典著作——《构建数据库仓库》,标志着数据仓库概念的正式确立。他也被誉为“数据仓库之父”。;

□数据仓库的定义

数据仓库,英文全称DataWarehouse,简称DW或DWH。

比尔·恩门在《构建数据库仓库》书中给出的数据仓库的定义——

·数据仓库,是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-

Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。;

□数据仓库的特征

支持管理决策

·描述:简单来说,传统数据库主要是员工使用,支撑某项具体的工作(例如收银系统等)。而数据仓库主要是管理层使用,用于掌握宏观情况,以便做出更合理的决策。

·总结:数据仓库是一个战略级的工具。它通常用于商业智能(BusinessIntelligence,简称BI)和决策支持,可以帮助企业从大量数据中获得有价值的信息,增加洞察能力。

·目的:增加收入、提升效率、降低成本。;

□数据仓库的特征

面向主题

·描述:传统数据库,围绕具体的工作(应用)来组织数据,用于一个明确的事务。例如进销存数据库、考勤数据库、财务数据库等。而数据仓库,是按照主题来组织数据的。所谓主题,是一个特定的业务领域,或者一个明确的分析目标,例如销售分析主题、员工敬业度主题??学生在校表现主题等等。主题的范围更大,level(层级)更高。

·总结:数据仓库的数据,是多个传统数据库的集合和“拉通”。它把不同数据库表单的信息挑选整合在一起,提供了一个更全面的数据呈现。

·目的:适合支持管理者做决策和分析。;

□数据仓库的特征

集成

·描述:数据仓库可以整合来自多个不同数据源(企业数据库、供应商数据库、渠道商数据库等)的数据。

·总结:数据仓库可以包括结构化数据、半结构化数据和非结构化数据等,但主要还是以结构化数据为主。

·目的:提供一个更全面的视角,以便服务于分析和决策。;

□数据仓库的特征

相对稳定

·描述:数据一旦被加载到数据仓库中,通常不会更新或修改,确保了数据的稳定性和用于长期分析的可靠性。

·总结:数据仓库所涉及的操作,主要是数据查询,而不是修改。;

□数据仓库的特征

反映历史变化

·描述:传统数据库,一般都是数据更新。写入新数据,替换旧数据。数据仓库不一样,它保存了大量的历;

■数据仓库

□数据仓库的参考架构

原始数据层(ODS,OperationDataStore):

也叫数据引入层、操作数据层、数据准备层或贴源层,用于采

集和存储原始数据。

数据公共层(CDMmonDataModel):

又分为基础层/明细层(DWD,DWDetail)、汇总层/服务层

(DWS,DWService)、公共维度层(DIM)。DWD对源数

据进行清洗以便将其加载到数据仓库中。DWS将经过清洗和转

换后的数据并轻度汇总。DIW用于保存维度信息,用于建模。

数据应用层(ADS,ApplicationDataService):

主要功能是保存结果数据,为外部系统提供查询接口,用于满

足特定的商业智能、数据挖掘和报表应用。;

从不同的数据源系统中抽取数据。定期进行的(例如每天或每周)。

提高数据质量和一致性。清洗包括修正错误、去除重复项、处理缺失值等。

转换则是将数据转化为统一的格式,以便在数据仓库中进行有效

文档评论(0)

blue_sky22 + 关注
实名认证
文档贡献者

立足职场,坚持学习实践,并乐于分享知识助益他人。

1亿VIP精品文档

相关文档