- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据湖仓基础知识
;
数据仓库
数据湖
数据湖仓;
PART数据仓库;
上世纪70年代,关系数据库(传统数据库的主要类型)刚刚崛起时,美国康奈比尔·恩门(BillInnmon,也有译为比尔·因蒙)就开始定义和讨论数据仓库这一术语。
1988年,IBM研究人员巴里·德夫林(BarryDevlin)和鲍尔·(PaulMurphy),联
合发表了文章《商业和信息系统的架构》,其中引入了“商业数据仓库”一词。他们还开发了一种叫做“业务数据仓库”的系统。
几年后,1990年,美国科学家拉尔夫·金博尔(RalphKimball)创立了RedBrickSystems公司,推出专门用于数据仓库的数据库管理系统RedBrickWarehouse。
1991年,比尔·恩门创立了PrismSolutions公司,推出用于开发数据仓库的软件Prism
WarehouseManager。
同年,比尔·恩门正式出版了数据仓库的经典著作——《构建数据库仓库》,标志着数据仓库概念的正式确立。他也被誉为“数据仓库之父”。;
□数据仓库的定义
数据仓库,英文全称DataWarehouse,简称DW或DWH。
比尔·恩门在《构建数据库仓库》书中给出的数据仓库的定义——
·数据仓库,是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-
Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。;
□数据仓库的特征
支持管理决策
·描述:简单来说,传统数据库主要是员工使用,支撑某项具体的工作(例如收银系统等)。而数据仓库主要是管理层使用,用于掌握宏观情况,以便做出更合理的决策。
·总结:数据仓库是一个战略级的工具。它通常用于商业智能(BusinessIntelligence,简称BI)和决策支持,可以帮助企业从大量数据中获得有价值的信息,增加洞察能力。
·目的:增加收入、提升效率、降低成本。;
□数据仓库的特征
面向主题
·描述:传统数据库,围绕具体的工作(应用)来组织数据,用于一个明确的事务。例如进销存数据库、考勤数据库、财务数据库等。而数据仓库,是按照主题来组织数据的。所谓主题,是一个特定的业务领域,或者一个明确的分析目标,例如销售分析主题、员工敬业度主题??学生在校表现主题等等。主题的范围更大,level(层级)更高。
·总结:数据仓库的数据,是多个传统数据库的集合和“拉通”。它把不同数据库表单的信息挑选整合在一起,提供了一个更全面的数据呈现。
·目的:适合支持管理者做决策和分析。;
□数据仓库的特征
集成
·描述:数据仓库可以整合来自多个不同数据源(企业数据库、供应商数据库、渠道商数据库等)的数据。
·总结:数据仓库可以包括结构化数据、半结构化数据和非结构化数据等,但主要还是以结构化数据为主。
·目的:提供一个更全面的视角,以便服务于分析和决策。;
□数据仓库的特征
相对稳定
·描述:数据一旦被加载到数据仓库中,通常不会更新或修改,确保了数据的稳定性和用于长期分析的可靠性。
·总结:数据仓库所涉及的操作,主要是数据查询,而不是修改。;
□数据仓库的特征
反映历史变化
·描述:传统数据库,一般都是数据更新。写入新数据,替换旧数据。数据仓库不一样,它保存了大量的历;
■数据仓库
□数据仓库的参考架构
原始数据层(ODS,OperationDataStore):
也叫数据引入层、操作数据层、数据准备层或贴源层,用于采
集和存储原始数据。
数据公共层(CDMmonDataModel):
又分为基础层/明细层(DWD,DWDetail)、汇总层/服务层
(DWS,DWService)、公共维度层(DIM)。DWD对源数
据进行清洗以便将其加载到数据仓库中。DWS将经过清洗和转
换后的数据并轻度汇总。DIW用于保存维度信息,用于建模。
数据应用层(ADS,ApplicationDataService):
主要功能是保存结果数据,为外部系统提供查询接口,用于满
足特定的商业智能、数据挖掘和报表应用。;
从不同的数据源系统中抽取数据。定期进行的(例如每天或每周)。
提高数据质量和一致性。清洗包括修正错误、去除重复项、处理缺失值等。
转换则是将数据转化为统一的格式,以便在数据仓库中进行有效
您可能关注的文档
- 数字智慧方案智慧酒店智能化系统解决方案(63页PPT).ppt
- 数字智慧方案智慧酒店智能化系统设计方案()(50页PPT).ppt
- 数字智慧方案智慧军校解决方案(56页PPT).pptx
- 数字智慧方案智慧军校物联传感平台应用方案(32页PPT).pptx
- 数字智慧方案智慧康复医院智能化总体规划方案(51页PPT).pptx
- 数字智慧方案智慧矿山解决方案(48页PPT).pptx
- (52页PPT)供应链与生产制造L1L4级高阶流程规划框架.pptx
- (52页PPT)结构化思维.pptx
- 数字智慧方案智慧粮库解决方案(21页PPT).pptx
- (52页PPT)精益绿带系列课程23改善方法论项目管理.pptx
最近下载
- 耳穴压豆疗法治疗耳鸣耳聋.pptx VIP
- 大学物理B习题及答案.pdf VIP
- 穴位敷贴技术课件PPT.pptx VIP
- 电子竞技比赛中的反作弊技术与策略.docx VIP
- 建筑接地装置验收质量记录表.docx VIP
- 接地装置安装单元工程质量验收评定表.pdf VIP
- 材料设备构配件进场检验及存储管理制度.doc VIP
- (高清版)DB41∕T 2554-2023 多式联运货物运输量计算方法.pdf VIP
- 在线网课学习课堂《史学名家的治史历程与方法(北京师大)》单元测试考核答案.docx VIP
- 2023年国家开放大学专科《Dreamweaver网页设计》形考任务二五答案与解析.pdf VIP
原创力文档


文档评论(0)