数据仓库数据据仓库原理.pptVIP

下载本文档

1
0
约4.56千字
约 53页
2023-06-17 发布于重庆
举报
版权申诉

数据仓库数据据仓库原理.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

* 3.3数据抽取、转换和装载数据仓库的数据来源于多个数据源，主要是企业内部数据；存档的历史数据；企业的外部数据。这些数据源可能是在不同的硬件平台上，使用不同的操作系统。源数据是以不同的格式存放在不同的数据库中。　数据仓库需要将这些源数据经过抽取、转换和装载的过程，存储到数据仓库的数据模型中。可以说，数据仓库的数据获取需要经过抽取（Extraction）、转换（Transform）、装载（Load）三个过程即ETL过程。第三十一页，共五十三页。 * 3．3．1 数据抽取（1）确认数据源（2）数据抽取技术第三十二页，共五十三页。 * 1.确认数据源列出对事实表的每一个数据项和事实列出每一个维度属性对于每个目标数据项，找出源数据项一个数据元素有多个来源，选择最好的来源确认一个目标字段的多个源字段，建立合并规则确认一个目标字段的多个源字段，建立分离规则确定默认值检查缺失值的源数据第三十三页，共五十三页。 * 2.数据抽取技术当前值。源系统中存储的数据都代表了当前时刻的值。当商业交易时，这些数据是会发生变化的。周期性的状态。这类数据存储的是每次发生变化时的状态。例如，对于每一保险索赔，都经过索赔开始、确认、评估和解决等步骤，都要考虑有时间说明。第三十四页，共五十三页。 * 3．3．2 数据转换 1.数据转换的基本功能 2.数据转换类型 3.数据整合和合并 4.如何实施转换第三十五页，共五十三页。 * 1.数据转换的基本功能选择：从源系统中选择整个记录或者部分记录。分离/合并：对源系统中的数据进行分离操作或者合并操作。转化：对源系统进行标准化和可理解化。汇总：将最低粒度数据进行汇总。清晰：对单个字段数据进行重新分配和简化。第三十六页，共五十三页。 * 2.数据转换类型（1）格式修正（2）字段的解码（3）计算值和导出值（4）单个字段的分离（5）信息的合并（6）特征集合转化（7）度量单位的转化（8）关键字重新构造（9）汇总（10）日期/时间转化第三十七页，共五十三页。 * 3.数据整合和合并数据整合和合并是将相关的源数据组合成一致的数据结构，装入数据仓库。（1）实体识别问题数据来源于多个不同的客户系统，对相同客户可能分别有不同的键码，将它们组合成一条单独的记录。（2）多数据源相同属性不同值的问题不同系统中得到的值存在一些差别，需要给出合理的值。第三十八页，共五十三页。 * 第三章数据仓库原理第一页，共五十三页。 * 3.1 数据仓库结构体系 3.2 数据仓库的数据模型 3.3数据抽取、转换和装载 *3.4 元数据第二页，共五十三页。 * 3.1 数据仓库结构体系 3.1.1 数据仓库结构 3.1.2数据集市及其结构 3.1.3 数据仓库系统结构 3.1.4 数据仓库运行结构第三页，共五十三页。 * 近期基本数据：是最近时期的业务数据，是数据仓库用户最感兴趣的部分，数据量大。历史基本数据：近期基本数据随时间的推移，由数据仓库的时间控制机制转为历史基本数据。轻度综合数据：是从近期基本数据中提取出的，这层数据是按时间段选取，或者按数据属性（attributes）和内容（contents）进行综合。高度综合数据层：这一层的数据是在轻度综合数据基础上的再一次综合，是一种准决策数据。 3.1.1 数据仓库结构第四页，共五十三页。第五页，共五十三页。 * 1.数据集市的产生数据仓库工作范围和成本常常是巨大的。开发数据仓库是代价很高、时间较长的大项目。提供更紧密集成的数据集市就应运产生。目前，全世界对数据仓库总投资的一半以上均集中在数据集市上。 3.1.2 数据集市及其结构第六页，共五十三页。 * 数据集市（Data Marts）是一种更小、更集中的数据仓库，为公司提供分析商业数据的一条廉价途径。 Data Marts是指具有特定应用的数据仓库，主要针对某个应用或者具体部门级的应用，支持用户获得竞争优势或者找到进入新市场的具体解决方案。 2.数据集市概念第七页，共五十三页。 * 3.数据集市与数据仓库差别（1）数据仓库是基于整个企业的数据模型建立的，它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的。（2）部门的主题与企业的主题之间可能存在关联，也可能不存在关联。（3）数据集市的数据组织一般采用星型模型。大型数据仓库的数据组织，如NCR公司采用第三范式。第八页，共五十三页。 * 1、规模是小的