- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* 3.3数据抽取、转换和装载 数据仓库的数据来源于多个数据源,主要是企业内部数据;存档的历史数据;企业的外部数据。这些数据源可能是在不同的硬件平台上,使用不同的操作系统。源数据是以不同的格式存放在不同的数据库中。 数据仓库需要将这些源数据经过抽取、转换和装载的过程,存储到数据仓库的数据模型中。可以说,数据仓库的数据获取需要经过抽取(Extraction)、转换(Transform)、装载(Load)三个过程即ETL过程。 第三十一页,共五十三页。 * 3.3.1 数据抽取 (1)确认数据源 (2)数据抽取技术 第三十二页,共五十三页。 * 1.确认数据源 列出对事实表的每一个数据项和事实 列出每一个维度属性 对于每个目标数据项,找出源数据项 一个数据元素有多个来源,选择最好的来源 确认一个目标字段的多个源字段,建立合并规则 确认一个目标字段的多个源字段,建立分离规则 确定默认值 检查缺失值的源数据 第三十三页,共五十三页。 * 2.数据抽取技术 当前值。 源系统中存储的数据都代表了当前时刻的值。当商业交易时,这些数据是会发生变化的。 周期性的状态。 这类数据存储的是每次发生变化时的状态。例如,对于每一保险索赔,都经过索赔开始、确认、评估和解决等步骤,都要考虑有时间说明。 第三十四页,共五十三页。 * 3.3.2 数据转换 1.数据转换的基本功能 2.数据转换类型 3.数据整合和合并 4.如何实施转换 第三十五页,共五十三页。 * 1.数据转换的基本功能 选择:从源系统中选择整个记录或者部分记录。 分离/合并:对源系统中的数据进行分离操作或者合并操作。 转化:对源系统进行标准化和可理解化。 汇总:将最低粒度数据进行汇总。 清晰:对单个字段数据进行重新分配和简化 。 第三十六页,共五十三页。 * 2.数据转换类型 (1)格式修正 (2)字段的解码 (3)计算值和导出值 (4)单个字段的分离 (5)信息的合并 (6)特征集合转化 (7)度量单位的转化 (8)关键字重新构造 (9)汇总 (10)日期/时间转化 第三十七页,共五十三页。 * 3.数据整合和合并 数据整合和合并是将相关的源数据组合 成一致的数据结构,装入数据仓库。 (1)实体识别问题 数据来源于多个不同的客户系统,对相同客户可能分别有不同的键码,将它们组合成一条单独的记录。 (2)多数据源相同属性不同值的问题 不同系统中得到的值存在一些差别 ,需要给出合理的值。 第三十八页,共五十三页。 * 第 三 章 数据仓库原理 第一页,共五十三页。 * 3.1 数据仓库结构体系 3.2 数据仓库的数据模型 3.3数据抽取、转换和装载 *3.4 元数据 第二页,共五十三页。 * 3.1 数据仓库结构体系 3.1.1 数据仓库结构 3.1.2数据集市及其结构 3.1.3 数据仓库系统结构 3.1.4 数据仓库运行结构 第三页,共五十三页。 * 近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。 历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。 轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。 高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。 3.1.1 数据仓库结构 第四页,共五十三页。 第五页,共五十三页。 * 1.数据集市的产生 数据仓库工作范围和成本常常是巨大的。开发数据仓库是代价很高、时间较长的大项目。 提供更紧密集成的数据集市就应运产生。 目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。 3.1.2 数据集市及其结构 第六页,共五十三页。 * 数据集市(Data Marts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。 Data Marts是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。 2.数据集市概念 第七页,共五十三页。 * 3.数据集市与数据仓库差别 (1)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的。 (2)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。 (3)数据集市的数据组织一般采用星型模型。 大型数据仓库的数据组织,如NCR公司采用第三范式。 第八页,共五十三页。 * 1、规模是小的
您可能关注的文档
最近下载
- 中招英语质量分析.pptx VIP
- 北师大版六年级上册数学知识点汇总(精华版).docx
- 课程思政在小学英语教学中的实施效果教学研究课题报告.docx
- 《语言障碍的康复》课件.ppt VIP
- 2025年中国小家电未来发展趋势分析及投资规划建议研究报告.docx VIP
- 语言与言语训练的方法课件.ppt VIP
- 统编版2024道德与法治七年级上册 教材单元思考与行动解答示例.pptx
- DB52T 780—2012贵州省白酒工业旅游示范点评定规范.pdf VIP
- 2025年医院招聘考试公共基础知识历年试题及答案解析(4).docx VIP
- (2025秋新版)北师大版三年级数学上册《铅笔有多长》PPT课件.pptx VIP
文档评论(0)