- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据集市解析
1.3 数据仓库与数据集市 1.3.1 什么是数据集市 1.3.2 数据集市的类型 1.3.3 数据集市与数据仓库 的区别 1.3.4 数据集市的特点 1.3.5 数据集市的开发方法 1.3.6 数据集市的建立 第一章 数据仓库原理 1.3 数据仓库与数据集市 1.3.1 什么是数据集市 数据集市是一种小型的数据仓库,主要面向部门级业务,并且只面向某个特定的主题,是为满足特定用户的需求而建立的一种分析环境。它能够快速地解决某些具体的问题,发布特定用户所需的信息。它们的投资规模比数据仓库小很多,并且更关注在数据中构建复杂的业务规则来支持功能强大的分析。 第一章 数据仓库原理 一种比较常见的误解: 认为数据仓库和数据集市的差别只是数据量的大小而已。 实际上数据仓库是企业级的,数据仓库中存放的是整个企业的信息,并且数据是按照不同主题来组织的,能为整个企业各个部门的运行提供决策支持手段。 1.3.1 什么是数据集市 1.3 数据仓库与数据集市 第一章 数据仓库原理 数据集市只存放了某个主题需要的信息,一般只能为某个局部范围内的管理人员服务,因此也成为“小数据仓库”或“部门级的数据仓库”。 1.3.1 什么是数据集市 1.3 数据仓库与数据集市 第一章 数据仓库原理 1.3.1 什么是数据集市 例:假设为某个银行构建一个分行级别的数据仓库,再为该分行国际业务部构建从属型数据集市。 数据仓库的数据来源于银行的业务系统,包括储蓄、卡、个贷、外汇宝、中间业务等,分析的主题包括客户、渠道、产品等。数据仓库的数据粒度根据分析的需求而定,一般包括具体的历史记录。然后,将这些记录汇总到天、周、月、季度、年等各个层次,具体数据粒度由分析的需求而定。另外,数据仓库还存储一些为分析而计算的指标。比如,客户的价值或客户的忠诚度。这些指标的计算不能通过单一的业务系统取得,它需要从所有业务上综合考虑,这也是数据仓库系统的优点之一。 1.3 数据仓库与数据集市 第一章 数据仓库原理 1.3.1 什么是数据集市 假设整个分行有20万个客户,那么数据仓库将包含20万个客户所有业务的历史数据、汇总数据以及数据仓库指标数据,数据量将会达到几十甚至数百G。为了满足全行所有部门用户的查询和分析,数据仓库只能采用范式化设计。这样,不管用户有什么查询需求,只要有数据存在就能满足所需。 1.3 数据仓库与数据集市 第一章 数据仓库原理 1.3.1 什么是数据集市 假设国际业务部门的客户有2万人。如果不构建数据集市,他们会直接在数据仓库上查询相关的信息,比如外汇宝客户去年一年外汇交易额在各种交易方式的分布。这种查询的效率和性能是非常低的,如果各个部门的所有用户都直接在数据仓库上查询相关的信息,数据仓库的性能会下降,以至于无法满足大多数用户对性能的要求。因此,构建部门级的数据集市是非常必要的。国际业务部门的数据集市,集中了数据仓库中与本部门直接相关的业务数据,例如2万个客户外汇交易的历史数据以及汇总。它采用星型模型,可以方便OLAP工具的查询和分析。 1.3 数据仓库与数据集市 第一章 数据仓库原理 1.3.2 数据集市的类型 数据分析 独立数据集市 数据源 数据分析 从属数据集市 数据源 数据仓库 1.3 数据仓库与数据集市 第一章 数据仓库原理 1.3.3 数据集市与数据仓库的区别 数据仓库 数据集市 范围 企业级 部门级 主题 企业主题 部门或特殊的分析主题 数据粒度 最细粒度 较粗的粒度 历史数据 大量的历史数据 适度的历史数据 优化 处理海量数据、数据探索 便于访问和分析、快速查询 1.3 数据仓库与数据集市 第一章 数据仓库原理 1.3.3 数据集市与数据仓库的区别 关于数据集市,常常存在如下几个误区: 1)单纯用数据量的大小来区分数据集市和数据仓库 2)简单地理解数据集市容易建立 3)数据集市很容易升级成为数据仓库 1.3 数据仓库与数据集市 第一章 数据仓库原理 1.3.4 数据集市的特点 1)规模小、灵活,可以按照多种方式来组织,如按特定的应用、部门、地域、主题等。 2)投资规模小、投资回收期短,风险小。 3)独立数据集市的构建比较快。 4)不同的数据集市可以分布在不同的物理平台上,也可以逻辑地分布在同一物理平台上。这种灵活性使得数据集市可以独立地实施,因而企业人员可以快速获取信息。 5)数据集市的思想同时提供了分布式数据仓库的思想。如果按照数据的地理分布来组织
文档评论(0)