基于嵌套关系演算的数据起源分析与实现-analysis and implementation of data origin based on nested relation calculus.docx

基于嵌套关系演算的数据起源分析与实现-analysis and implementation of data origin based on nested relation calculus.docx

  1. 1、本文档共69页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于嵌套关系演算的数据起源分析与实现-analysis and implementation of data origin based on nested relation calculus

基于嵌套关系演算的数据起源研究与实现表清单表 2.1 Eager 方法与 Lazy 方法系统分类15表 3.1 集合类型的通用操作算子 18表 3.2 集合类型良定义条件 19表 4.1 实验数据关系模式结构 45表 4.2 实验查询 SQL 语句结构45VI承 诺 书本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进 行研究工作所取得的成果。尽我所知,除文中已经注明引用的内容外, 本学位论文的研究成果不包含任何他人享有著作权的内容。对本论文所 涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标 明。本人授权南京航空航天大学可以有权保留送交论文的复印件,允许 论文被查阅和借阅,可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或其他复制手段保存论文。作者签名: 日期: 第一章 绪论1.1 研究背景及意义随着数据云存储概念诞生以及因特网普及导致的信息流加速,越来越多的人对数据创建 过程和数据变迁过程产生了兴趣。各行业(如生物学、化学和物理学等)的专家从相关的专业 公开数据库提取、使用并反馈数据,因此这些专业公开数据库中的数据大部分都是经过大量 频繁的修改而生成的。在提供行业专家交流便利的同时也带来了许多问题,如数据从何处而 来,数据质量和保证,数据从原始创建到现在经由哪些修改等。因此,数据库数据的使用者 们不仅对数据本身感兴趣,而且对这些描述数据的信息也感兴趣。我们将这些描述数据如何 创建以及描述如何变迁一系列过程的信息称为数据的起源信息。这些信息可用于判断数据质 量以及数据完整度,检测数据变迁过程的正确性,重推导以及重现数据修改过程等。在某种 程度上来说,数据起源信息的价值与数据本身价值相同,甚至超过数据本身。数据仓库从不同的数据源整合数据并分析这些整合后的数据,整合过程的正确性以及整 合后数据的正确性对分析结果的重要是不言而喻的。工作流管理系统,基于 SOA(面向服务 架构)的系统以及一些用于完成复杂计算任务的服务(可能是分布式的),用户可能对某一结 果如何计算而来的会感兴趣。数据的起源信息与时间戳安全证书的结合可用于审查版权问 题,如科学家可以证明他是某实验的发明人或他是某特殊方法的创造者。在商业领域中文档 管理系统可用于管理公司文档,允许大量用户在同一个文档上进行同步工作。管理员可以利 用起源信息更好的了解公司的工作流以及发现错误文档的原因以及文档的修改过程。同样的 方式也可以应用到分布式软件开发工具中。其他的一些应用领域也可以从起源信息中获益, 如交互式统计环境、可视化以及数据库知识发现系统。广泛的应用领域获益于数据的起源信 息,不同应用中对应的数据起源信息的类型、操作、以及所需的查询工具都有所不同。因此 我们需要从不同的应用和数据模型起源需求中找出它们的差别和相似之处并且通过定义某 个方案以便能够真正的应用到实际问题中去。对于目前的数据起源信息的应用,可以大致可以分类如下: 数据质量:数据质量问题是各行业专家所专注的重要问题,高质量的查询输出数据往往依赖于高质量的源数据以及专业的数据维护。但如何判断数据质量的高低仅凭输出结果本身 很难实现,必须结合源数据以及数据变迁过程信息深入了解数据创建、演化的过程才能够合 理判断数据集的质量。数据检测:人机交互、多样化的数据演化过程对系统的可靠性造成很大的影响,大多数 系统加工、汇总或集成了外部数据源,甚至还需要不断的人机交互,想要确切的了解数据演 化过程中是否产生错误,错误产生在哪一环节,支持起源查询的系统能够回答这两个问题。数据恢复:随着系统的不断更新,如何保证系统的可用性以及可靠性是必须考虑的问题, 数据起源信息描述了数据的演化过程,在必要时可以根据数据的起源信息来重构数据以增强系统的可维护性。 数据引用:数据引用信息增加了源数据、中间数据和结果数据的可读性。数据的最大限度共享可大量减少数据冗余、避免重复劳动,记录数据引用信息可以很好的保证数据的可读 性。1.2 国内外研究现状目前国内外与起源相关的概念很多,为了防止混淆,本文统一数据起源中大部分重要的 概念术语并与其他研究者使用的概念术语进行对应,一些同义词如“世系”、“血统”也用于 描述数据的起源概念,本文采用“起源”这个术语,因为该术语简短直观。另外用起源模型 和起源管理系统这两个概念来区分起源概念上的模型和管理起源信息的系统。研究数据起源 使用的数据模型以及数据粒度不尽相同,每个数据模型有各自概念和术语以及层次结构,本 文用“数据项”表示数据的基本结构单元,数据项是数据起源管理的最小单位,用于表述粒 度概念的“细节度“。一个数据项可以是一个 XML 文档,数据库中一个元组,一个数据库关 系,一个数据库模式或者一个文件系统中的一个文件。元组和关系可能是一个关系数据库

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档