- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2.1 数据仓库结构体系 2.2 数据仓库的数据模型 2.3数据抽取、转换和装载 2.4 元数据 2.1 数据仓库结构体系 2.1.1 数据仓库结构 2.1.2数据集市及其结构 2.1.3 数据仓库系统结构 2.1.4 数据仓库运行结构 数据粒度 定义 粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。 粒度深深地影响存放在数据仓库中数据量的大小,同时影响数据仓库所能回答的查询类型。 在数据仓库中的数据粒度与查询的详细程度之间要做出权衡。 当提高粒度级别时,数据所能回答查询的能力会随之降低。换言之,在一个很低的粒度级别上,几乎可以回答任何问题,但在高粒度级别上,数据所能处理的问题的数量是有限的。 左图是一个低粒度级,每个活动 在这里是一次电话 被详细记录下来,数据的格式如图所示。到月底每个顾客平均有200条记录 全月中每个电话都记录一次 ,因而总共需要40000个字节; 右图的边是一个高粒度级。数据代表一位顾客一个月的综合信息,每位顾客一个月只有一个记录,这样的记录大约只需200个字节。 问题:“上星期某某顾客是否给某某人打了电话?” 在低粒度级别上,完全可以回答这一问题,虽然这种回答将花费大量资源去查询大量的记录,但是问题结果是可以确定的。 在高粒度级别上,则无法明确地回答这个问题。假如在数据仓库中存放的只是所打电话的总数,那么就无法确定其中是否有一个电话是打给某人的。 1.数据集市的产生 数据仓库工作范围和成本常常是巨大的。开发数据仓库是代价很高、时间较长的大项目。 提供更紧密集成的数据集市就应运产生。 目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。 数据集市(Data Marts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。 Data Marts是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。 3.数据集市与数据仓库差别 (1)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的。 (2)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。 (3)数据集市的数据组织一般采用星型模型。 大型数据仓库的数据组织,如NCR公司采用第三范式。 1、规模是小的 2、特定的应用 3、面向部门 4、由业务部门定义,设计和开发 5、由业务部门管理和维护 6、快速实现 7、购买较便宜 8、投资快速回收 9、更详细的、预先存在的数据仓库的摘要子集 10、可升级到完整的数据仓库 独立数据集市 Independent Data Mart 从属数据集市 Dependent Data Mart 2.1.2 数据仓库系统结构 数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。 (2)数据抽取、转换、装载 数据仓库中的数据,是通过在源数据中抽取数据,按数据仓库的逻辑数据模型的要求进行数据转换,再按物理数据模型的要求装载到数据仓库中去。 数据抽取、转换、装载(ETL)是建立数据仓库的重要步骤,需要花费开发数据仓库70%的工作量。 (1)查询工具 数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。 一般包含: 可视化工具:以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。 (2)多维分析工具(OLAP工具) 通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。 多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。 (3)数据挖掘工具 从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Mining)工具。 数据模型 数据模型是对现实世界的一种抽象,根据抽象程度的不同,可形成不同抽象层次上的数据模型。与数据库的数据模型相类似,数据仓库的数据模型也分为三个层次: 概念模型 逻辑模型 物理模型 数据模型 概念模型 客观世界到计算机系统的一个中间层次,它最常用的表示方法是E-R法(实体-关系)。 目前,数据仓库一般是建立在关系型数据库的基础之上,所以其概念模型与一般关系型数据库采用的概念模型相一致。 数据模型 逻辑模型 指数据的逻辑结构,如多维模型、关系模型、层次模型等。数据仓库的逻辑模型描述了数据仓库的主题的逻辑实现,即每个主题对应的模式定义。 物理模型 是逻辑模型的具体实现,如物理存取方式、数据存储结构、数据存放位置以及存储分配等。在设计数据仓库的物理模型时,需要考虑一些提高性能的技术,如表分区,建立索引等。 数据模型 目前,对数据仓库模型的讨
您可能关注的文档
最近下载
- 2025年秋季学期开学工作部署会上,校长讲话:开局靠状态,落地靠实干,前行靠合力!.docx VIP
- 山东省鲁信公益基金会信息公开制度.PDF VIP
- ECMO临床应用理论知识考核试题及答案.docx VIP
- 2025年秋季新教材部编版小学道德与法治三年级上册全册道法核心素养教案(教学设计)含教学反思.docx
- 劳务分包招标文件范本(2025版).docx VIP
- 2025年殡仪服务员考试试题及答案.docx VIP
- 2025版矿山居间合同协议书范本.docx
- 中医刺骨术临床高级带教进修班【邀请函】点击下载-南京新中医学研究院.doc VIP
- 刺骨疗法实践报告总结.docx VIP
- 质量缺陷修补方案.doc VIP
文档评论(0)