[计算机]总公司KPI项目ETL认知培训.pptVIP

  • 5
  • 0
  • 约1.2万字
  • 约 58页
  • 2018-03-09 发布于浙江
  • 举报
[计算机]总公司KPI项目ETL认知培训

a、数据的时间差异性问题   在抽取旧有数据时,要将不同时期的数据定义统一,较早的数据不够完整或不符合新系统的数据规范,一般可以根据规则,在存入中转区的过程中予以更新或补充。 b、数据的平台多样性问题   在抽取旧有数据时,大部分数据都可采用表复制方式直接导入数据中转区集中,再做处理,但有部分数据可能需要转换成文本文件或使用第三方工具如Informatica等装载入数据中转区。这部分数据主要是与数据中转区数据库平台不一致的数据库数据,或非存储于数据库内的文本、excel等数据。 c 、数据的不稳定性问题   对于重要信息的完整历史变更记录,在抽取时可以根据各时期的历史信息,在抽取需要信息等基本属性的旧有数据时,要与相应时段的信息关联得到真实的历史属性。 d 、数据的依赖性问题   旧有业务系统的数据关联一般已有约束保证,代码表和参照表等数据也比较准确,但仍有少量数据不完整,对这部分数据,需根据地税的需求采取清洗策略,保证数据仓库各事实表和维表之间的关联完整有效。   数据仓库各事实表和维表的初始装载顺序有先后关系,要有一个集中的数据装载任务顺序方案,确保初始数据装载的准确。这可以通过操作系统或第三方工具的任务调度机制来保证。 a、业务描述统一,对数据模型的不同版本融合、映射为唯一版本。包括:   1、在业务逻辑没有变化的前提下,旧的业务数据映射在新模型上。   2、 遗留系

文档评论(0)

1亿VIP精品文档

相关文档