面向复杂数据源的数据抽取模型和算法研究-计算机软件与理论专业毕业论文.docx

面向复杂数据源的数据抽取模型和算法研究-计算机软件与理论专业毕业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要摘要 摘要 摘要 随着信息技术的飞速发展,互联网上的电子文档已经成为一个巨大的信息 源。在这个巨大的信息源面前,人们自然希望利用成熟的数据库技术对感兴趣的 数据进行方便的查询、分析和报告。这就刺激了围绕这些数据源开发数据集成系 统的研究工作。数据集成系统组合来自不周数据源的数据,目的在于以一个统一 的视图提供给用户使用。 数据抽取是数据集成系统的基础问题之一,这一问题可简单地描述为:给定 数据源S,确定一个S到数据库冠的映射朋,该映射用数据抽取模型、抽取规则 和抽取算法去抽取J中的数据对象,用数据库模式、映射规则和组装算法将已抽 取的数据对象组装到览中(本文将数据抽取模型、抽取规则、数据库模式和映射 规则通称为元数据)。实现映射埘的计算机程序称为包装器。数据集成系统常用 包装器生成工具生成所需的包装器。由于数据源的多样性和复杂性,如何快速准 确地为各种数据源建立包装器是数据集成系统实现的关键。这一课题已成为计算 机界研究的热点,也是本文研究的核心问题。 本文的研究动机是从各种生物数据源中抽取感兴趣的数据对象,将这些数据 对象组装到生物数据集成系统中,目的在于为生物学家搭建方便的查询分析平 台。从数据抽取的角度讲,生物数据源不仅规模庞大,抽取准确度要求高,而且 往往具有一些会导致现有包装器生成工具失效的复杂特性。首先,生物数据源中 的数据对象具有结构复杂性:数据对象往往具有多层嵌套结构,对象的成分可以 缺失、多次重复、有序出现或无序出现:其次,抽取规则具有复杂性:生物数据 源常用非标准标签对数据对象进行分隔,许多需抽取的对象甚至没有恰当标签, 某些指定的标签可能会在数据对象内容中出现,导致歧义(即数据源中含有噪声 成分);第三,映射规则具有复杂性:往往需要对已抽取的数据对象实施一些扩 展操作后才能将它们组装到数据库中。 本文从分析现有包装器生成工具在处理复杂生物数据源时存在的问题入手, 提出了两种面向复杂数据源的数据抽取模型和算法,在此基础上设计和实现了 ReDE包装器生成工具和L.树包装器生成工具。本文的主要研究成果包括: (1)提出了一套面向无噪声复杂数据源的新型数据抽取方法 针对现有包装器生成工具需要手工生成和维护大量元数据的问题,本文实现 了利用元数据间的依赖关系,从正则表达式(Regular Expression,简称RE)自 动导出其他元数据的映射方法。这一方法降低了元数据生成和维护的工作量,保 证了元数据间的一致性;针对传统RE匹配算法在解决数据抽取问题时存在的不 足,本文设计了一种基于传统RE匹配的新型数据抽取算法,该算法将传统RE 匹配作为基本建筑模块,利用RE分析树在数据源中递归地进行数据对象的切分、 面向复杂数据源的数据抽取模型和算法研究 IV 复旦大学博士学位论文 摘要抽取和组装。本文也给出了分析抽取算法效率的代价模型,在此基础上讨论了抽 摘要 抽取和组装。本文也给出了分析抽取算法效率的代价模型,在此基础上讨论了抽 取算法的伸缩性和时间复杂度并用实验进彳亍了验证。 (2)提出了一种新的RE二义性检查算法 在构造RE时,用户往往会有意地引入一些可简化RE构造的有益二义性, 也会无意地遗留一些危害抽取结果准确性的有害二义性,而现有的RE二义性处 理方法却不能区别对待这两种二义性。为解决这一问题,本文对RE中的切分二 义性问题进行了深入研究,首先给出了RE切分特征的形式定义,然后以一组定 理为基础给出了计算RE切分特征的方法,最后基于RE切分特征给出了有害二 义性的形式定义并设计了检查算法,目的在于帮助用户对RE进行调试。 (3)提出了一种面向含噪声复杂数据源的新型数据抽取模型 针对现有数据抽取模型对含噪声复杂数据源缺乏表达能力的问题,本文用自 行设计的扩展正则表达式(Extended Regular Expression,简称ERE)来描述数据 源,提出了面向含噪声复杂数据源的DE-树数据抽取模型,给出了数据对象定位 器的构造方法。用一组定理论证了数据对象之间的切分条件并给出了切分方法, 讨论了结点的定位能力,基于结点的定位能力和数据对象的可切分性给出了DE一 树合法性检查方法(合法的DE.树称为L.树)。 (4)挺出了一种面向含噪声复杂数据源的新型数据抽取算法 针对现有数据抽取算法不能准确抽取含噪声复杂数据源的问题,本文设计了 L.树匹配算法。在抽取数据对象时,该算法摈弃基于关键词搜索的传统思路,采 用基于数据对象切分的“试探一回溯”策略,用定位器来估算搜索分区,用匹配约 束来修正搜索分区并过滤噪声,从而可准确抽取含缺失、嵌套、有序、无序和噪 声成分复杂组合的数据源。 (5)设计并实现了L.树包装器生成工吴 L.树包装器生成工具包括:④用作数据抽取脚本语言的ERE;②支持ERE可 视化构建、ERE逻辑检

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档