ETL 技术及在数字图书馆中应用研究.docVIP

下载本文档

1
0
约8.6千字
约 7页
2017-08-29 发布于安徽
举报
版权申诉

ETL 技术及在数字图书馆中应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

ETL技术及其在数字图书馆中的应用研究黄永文，李广建（中科院文献情报中心北京 100080）（北京师范大学管理学院北京 100875）文摘：简要介绍了ETL的背景，分析了ETL的实现过程和体系结构，对国内外关于ETL的研究内容和研究现状进行了详细的论述，最后提出了ETL技术在数字图书馆领域中的应用。关键词：信息抽取；数据转换；数字图书馆 Research of ETL Technology and application on digital library Huang Yongwen，architecture and functions, and discusses current situation and research focus of ETL. At last, it presents ETL application on digital library. Keywords: information extraction; data transformation; digital library 1 引言在网络环境下，存在着大量的异构系统、庞杂的资源和分散的知识，来源不同、分散和不清洁的信息与人们的信息需求之间的矛盾，以及不断集成化的信息服务，呼唤着信息集成和整合的有效方式和方法。具体来说，主要来自于以下两方面的驱动：（1）信息环境的驱动 ①存在大量非结构化信息且变化频繁。WEB上的信息隐藏在页面中，信息的类型、格式、约束、以及与其它信息的关联都没有明确的定义，呈现出非结构化或半结构化的特征，需要特殊的处理程序来分析和识别。同时，WEB上的信息始终在不断变化之中，这不仅仅是指信息的数量，也包括新的数据类型、数据格式以及包含这些信息的页面的结构（样式）。 ②存在大量异构的数据源和自治系统。这不仅表现在现有的各个WEB站点的软硬件平台、数据库各不相同，更重要的是对数据内容的表现方式也不相同。每个WEB站点都独立设计、实现并运行，具有完整的功能，而且相互之间关联很弱，具有相同语义内容的数据往往表现完全不同。（2）信息需求方面的动因与传统信息需求相比，在网络环境下，用户的信息需求发生了很大的变化，用户的信息需求呈现出社会化、综合化、集成化和高效化的特征。信息需求的变化对网络化信息服务起着决定作用，未来的网络信息服务应该是以主动的方式、无缝地整合有效资源、为用户提供高效、贴切的服务。这种网络信息服务模式的实现要以信息资源整合和集成服务系统的建立为基础，没有完备的资源整合体系作后盾，没有集成信息服务的理念作支撑，这种信息服务模式是无法实现的。信息需求的变化，提出了网络环境下信息资源集成和整合的要求。 ETL技术正是在这一目标的引导和推动下发展起来的一种资源集成与互操作手段，ETL可以应用在电子商务、智能信息检索、数字图书馆、WEB信息挖掘、信息门户等诸多领域。ETL（Extract-Transform-Load）是一个来源于数据仓库的概念，指抽取（Extract）、转换（Transform）、清洗（Cleaning）、装载（Loading）的过程。ETL是按照特定的应用需求，将WEB上特定数据源中的信息抽取、识别、整理、规范和存储，并在此基础上实现高效的查询和比较，乃至数据挖掘、知识发现等应用。文章主要对ETL的研究现状以及其在数字图书馆中的应用进行研究，希望能为基于Cyberinfrastrure、网格（Grid）、E-science等环境下的数字图书馆的建设和服务提供借鉴。 2 ETL的实现过程及体系结构 ETL的基本实现过程：数据抽取引擎从不同的数据源中进行完全或差异性抽取，这些数据来源可以是关系数据库、文件等，然后将抽取出来的数据存放在DSA（Data Staging Area，据存储区），在上载到目标数据仓库之前进行数据的转换和清洗。在ETL的体系结构中主要包括[1][2]：通用数据接口、数据抽取、数据集成、数据清洗、数据装载、系统管理等，ETL的体系结构如图1。图1 ETL的体系结构图（1）通用数据接口：支持多种数据源，如各种关系型数据库、网站、各种格式的文件等。该接口能够跨平台访问数据源，支持在不同类型数据源之间建立连接。通过数据接口可以屏蔽各种数据源之间的差异，提供统一的数据视图。（2）数据抽取：包括模式数据抽取和实例数据抽取。先从数据源中抽取模式信息，然后进行人工分析或智能分析，形成实例数据的抽取策略，并将其存储在知识库中作为装载数据的依据。（3）数据集成：数据抽取后形成多个模式和实例数据集，但是最终需要的是经过集成的和语义一致的数据，因此必须对数据集进行映射，形成统一的结果集。在此过程中，需要进行数据格式统一、数据标准化、一致性校验、修改内容上的错误等，最后将处理后的数据存储在