- 5
- 0
- 约5.8万字
- 约 78页
- 2019-03-10 发布于山东
- 举报
基于知识库的企业异构数据集成
第 PAGE \* Arabic \* MERGEFORMAT 37 页第 PAGE \* Arabic \* MERGEFORMAT 37 页第 PAGE \* Arabic \* MERGEFORMAT 37 页
密级: 保密期限:
硕士研究生学位论文
题目:基于知识库的企业异构数据集成
学 号: 075774
姓 名: 操牡丹
专 业: 计算机科学与技术
导 师: 王 柏
学 院: 计算机学院
2010 年 1 月 15
独创性(或创新性)声明
本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
申请学位论文与资料若有不实之处,本人承担一切相关责任。
本人签名: 日期:
关于论文使用授权的说明
学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)
保密论文注释:本学位论文属于保密在 年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。
本人签名: 日期:
导师签名: 日期:
基于知识库的企业异构数据集成
PAGE II
北京邮电大学硕士学位论文
基于知识库的企业异构数据集成
摘 要
近几十年来,随着科学技术的迅猛发展和信息化的推进,人类社会所积累的数据量已经超过了过去5000年的总和,数据的采集、存储、处理和传播的数量也与日俱增。企业为了实现数据共享,减少资料收集、数据采集等重复劳动和相应费用,必须首先进行数据集成。企业异构数据集成技术是将企业分布的、异构的独立信息源中的有用数据集成在一起, 使得用户能够以透明的方式访问这些数据源, 以供信息检索、分析处理等应用的技术。
现有的集成技术主要分为逻辑集成和物理集成两种方式,对于企业中的信息,因为强调从积累的数据中分析挖掘出有商业价值的信息,更适合用物理集成的方式。物理集成过程中最重要的技术是ETL(抽取、转换和装载)技术。当前已有的一些ETL产品主要基于图形化的作业配置形式,嵌入可执行的脚本,缺少灵活的“记忆”、“推荐”等智能支持。本文从本体和规则引擎入手,研究了一套基于知识库的智能的集成方案。
论文提出了一种基于知识库的数据集成框架。此框架将数据集成与知识库、规则引擎等智能技术联系起来,突出了“知识”在集成过程中的作用。论文首先给出了基于知识库的集成框架结构,分析了框架的各组成部分和其作用。接着重点研究了知识库的设计,包括语义库、映射库和规则库。提出了一种基于规则库以及历史映射信息的新的模式映射算法,以求实现模式映射的自动化。分析了规则库和规则管理的相关技术,并给出了在数据集成框架中规则引擎、规则管理等规则相关问题的解决方案。最后论文按照设计的集成框架实现了个人信息集成系统,融入了其中的所有研究点,并实现了数据查询和可视化分析功能,取得了良好效果。
与已有的数据集成工具相比,论文提出的集成框架的优势在于:引入了知识库,不断积累的知识为集成的智能化提供了基础;语义库消除了集成过程中的难以解决的语义冲突问题;模式映射的半自动化功能节省了时间和人力;提供了灵活的规则配置功能;提供了可视化分析功能。
关键字 数据集成,知识库,模式映射,规则管理
THE KNOWLEDGE-BASED ENTERPRISE
HETEROGENEOUS DATA INTEGRATION
ABSTRACT
In recent decades, with the rapid development of technology and advancement of information technology, the amount of
原创力文档

文档评论(0)