- 1、本文档共49页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据空间数据源理子系统
摘 要
数据空间(Data Space)是作为解决当前数据管理所面临的挑战
而提出的一种新的数据管理技术。随着信息技术的不断发展,数据源
多源和多样化特点使的传统以关系数据结构为基础的数据库管理系
统面临重大挑战,人们急需一种能淡化数据形式,支持各种不同数据
形式的数据管理方法,它不仅要支持不同形式的数据,还要实现各种
数据之间语义关联,保证数据的更新演化,具有 Pay-As-You-Go 特
性。
本文研究数据空间的数据源管理子系统的实现技术。在借鉴诸多
描述数据的数据模型基础上,将刻面的概念引入到数据空间,建立了
一个基于刻面属性集合的数据模型,通过四元组的形式来描述各种异
质异构数据源,并在此基础上实现了一个针对常用类型数据源的属性
自动抽取模块。数据空间创建初期,系统自动为常用数据源建立基本
刻面和内容刻面,并对数据空间的数据源分别实现它们的属性自动抽
取。
本文还设计了数据空间的数据源更新策略,通过定时地对数据源
的访问接口进行监控,再根据用户使用数据源的规律,设置数据源改
变频度和用户使用频度,以此为依据设置数据源的更新频度值。
最后,本文也对实现的数据源管理子系统进行测试,测试各种不
同的数据源、抽取数据源属性,建立多刻面数据模型的各项功能。测
试的数据源包括本地文件系统内的OFFICE 文件,主要以DOC 文档和
3
PPT 文档为主,还有网络上的网页文件,主要以新闻网页为主。对本
地和网上的各种数据源的大量实验结果证明了系统的有效性。
关键字:数据空间,刻面模型,属性抽取,更新策略
4
Abstract
Dataspace is a new data management techniques put forward to solve
the current data management challenges. With information technology
development, multi-source and diverse characteristics of data sources
make the traditional relational data structure based database management
systems face significant challenges, People need a new data management
methods urgently which can play down the need for a form of data, support
a variety of different data forms, and which not only to support the
various forms of data, but also to achieve the semantic association
between the various data to ensure that data is updated evolution, with
Pay-As-You-Go feature.
This paper studies a data source implementation technology of
dataspace management subsystem. After studying some dataspace models that
describing data source, we introduce a new concept that based on facet
description into dataspace, and establish a new data model that based on
the attributes collection of the facet of data sources, through the
quintuple forms to describe a variety of heterogeneous data sources, and
implement the function of
文档评论(0)