ETL数据集成方案初步研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
美河学习在线 仅学习参考 ETL 数据集成方案初步研究 0.引言 随着信息社会的到来,计算机网络环境和分布处理技术的深入发 展。信息系统中的数据源所呈现的形式也日益繁多,在这些数据中有模 式固定的结构化数据(如关系库中的表/元组和对象数据库中的类型/对 象),也有无模式的无序数据(如文字、声音、图像)。这种无论是已知 确定来自数据库的数据或是来自网络上的各式各样结构不固定、不完全 或不规则的数据,都给一个企业、一个部门乃至一个地区的信息系统在 向国民经济信息化发展的过程中产生了很大的障碍。因此,完成不同数 据的交换与集成成为各个企业与部门进行信息交换时所必须要解决的 重要问题。 1. 数据集成的概念 数据集成是系统集成的首要任务。系统集成的涵义是十分广泛的, 不同系统集成概念也不尽相同,因此,解决数据集成所涉及的面也就比 较广。一般数据来自多个不同的数据源,有数据库中的模式固定化数据, 也有来自异构源的异构数据,面对这种情况,常规的数据库互连集成是 不能解决问题的。所以,就必须打破数据库本身在数据存储上的缺陷。 数据仓库是一种新的数据处理体系结构,能对大量分散、独立数据库进 行规划、平衡、协调和编辑,对数据进行标识并编成目录,确定元数据 模型,使得数据能够在集成的系统中分布和共享。优势在于集成后仍然 能够适应以后系统的升级,同时随着数据挖掘和知识发现技术的迅速发 展,挖掘数据与数据库后隐藏的有用信息,为企业更进一步的发展提供 美河学习在线 仅学习参考 了基础。同时,数据仓库中数据处理过程能对大量无用数据进行处理。 2.数据集成工具ETL 通过上面的探讨可知,数据集成的目的就是要运用一定的技术手段 将系统中的数据按一定的规则组织成为一个整体,使得用户能有效地对 其进行操作。数据处理的对象是系统中的各种异构数据库中的数据或者 无格式数据,而数据集成的主要过程则是建立完善的数据仓库,以及采 用数据挖掘技术获取更多数据信息。 将数据从各种业务处理系统导入数据仓库是一个复杂的系统工程。现存 数据大多由于滥用缩写词、惯用语、数据输入错误、数据中的内嵌控制 信息、重复记录、缺损值、拼写变化、不同的计量单位和过时的编码等 造成了大量脏数据。这些都导致操作费用昂贵、决策制定的失败甚至错 误等恶性后果。因此,数据ETL (Extract, Transform and Load,提取、 转换和加载)过程十分必要,对脏数据进行有效处理,确保提取数据的 质量,这个过程可以称之为数据清洗,其中难点是数据值缺失和数据的 重复记录的处理。 ETL 作为数据库级的数据集成工具,擅长大量数据的迁移,能从多个 数据源中抽取数据,然后进行数据转换和加载,最终得到统一的、完备 的主题数据库或数据仓库,原来分散的应用仍独立运作,但ETL 提供了 复杂的数据转换功能,集成多种数据源和复杂的商业规则,主要是抽取、 转换和加载各种数据库中的数据,并能容忍数据在时间上的延迟,它工 作于会话层。 ETL 工具实质上仍为一类数据转换器,提供一种从源到目标系统转 美河学习在线 仅学习参考 换数据的方法。即从操作型系统提取、清洗并转换数据,然后将数据载 入决策支持系统的操作型数据存储、数据仓库或数据集市中。具体功能 针对不同的数据源编写不同的数据抽取、转换和加载程序处理,这完成 了数据集成的大部分工作。总的来说,ETL 工具提供了一种数据处理的 通用解决方案。对于详尽的流程设计需要考虑的问题还很多。但用图形 化方式生成数据转换装载的代码程序有较高的效率,并能节省大量工作 量。其转换处理步骤如图一: 图一 ETL 工具数据转换原理 虽然ETL 工具在数据集成过程中自动获取元数据方面有出色的表 现,但仍然面临着两个严峻挑战,一是多数据源的异构问题,一是脏数 据的检测与解决。对于集成数据源,主要从系统、语义、语法、结构四 个层次上考虑。其中语义是最复杂的,将语义作为底层信息和数据转换 的基础和依据,从而能提高数据转换的可能性和准确性。需求的数据要 保证其正确性、一致性、完整性和可靠性。 为了解决数据集成的质量,可以从数据流的角度来考虑,首先对异 常数据值的源数据进行分析。这些异常数据值大多包括不匹配预期数据 特征的数据、超出可接受范围的数据、与有效值不一致的数据、不遵从

文档评论(0)

max + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档