Web数据管理未来发展趋势的探讨.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web 数据管理未来发展趋势的探讨 刘伟、李玉坤 1、引言 Web 作为 21 世纪最具生命力的信息媒体,每天都在以惊人的速度蓬勃发展,新的技术与应用层出不穷。 它的迅猛发展使其成为一个巨大的网络平台,突破了国家和民族之间的界限,把世界各个角落联系在一起, 渗透到了人们的日常生活、工作、学习以及娱乐等各个方面。根据美国市场调研机构 comScore Networks 提 供的报告显示,到 2007 年 1 月,世界上的网民已接近 10 亿人,我国目前的网民数量位居第二,超过了 1 亿。 但从这一方面的数字就可以看出 Web 所带来的巨大影响。 Web 犹如一个巨大庞杂的数据源,几乎包含了现实世界中各个领域的信息,逐渐成为了人们获取有用信 息的最重要的途径。由于 Web 中蕴含的数据存在着高度异质、规模巨大以及动态变化等特点,使得人们从这 个巨大的数据源中快速准确地获取自己需要的信息变得愈加困难,不幸的是,在企业中取得巨大成功的传统 数据库系统却对复杂的 Web 数据难以管理。因此,对 Web 数据进行有效的管理成为了研究界和企业界人士 一直关注的热点领域。比如 Web 数据的抽取、Web 模型与查询语言以及 Deep Web 数据集成等方面都已经提 出了许多的研究工作和原型。然而,Web 数据管理中存在的问题远不止于此,而且随着其发展,还会有更多 新的问题出现。 本文从研究者的角度,对 Web 数据管理未来的发展趋势进行深入浅出的探讨。需要指出的是,本文的重 点不在于如何解决某一个具体问题,而是就未来 Web 数据管理这个研究方向提出一些抛砖引玉的观点。这些 观点主要包括两个方面,一个是从数据管理角度,尝试提出一种新的数据管理方式,另一个方面是对一些新 兴起的热点问题和技术进行探讨。 2、数据空间:一种新的 Web 数据管理方式 Web 日益成为一个巨大的信息源,无论企业还是个人,每天都从Web 获取大量有价值的信息。这新信息 来源于不同的数据源,如邮件、Deep web 、网页, 并且形式多样,有图片、word 文档、email 等,如何将这 些数据高效的集成起来,使企业或个人能够便捷地共享这些数据,成为一个重要的问题。于是人们试图针对 不同的应用领域,建立集成系统。但是从长远来看,集成系统由于有着建立代价大、数据支持有限、演化性 能差等缺点,将不能适应日益增长的数据需要,所以不可能成为最终的解决方案。这样的现状催生了数据空 间的提出,基于数据空间技术的数据集成为新的趋势。 2.1 数据空间基本特性 数据空间是对新的数据特点和数据管理技术的抽象与概括,其本质就是解决数据集成问题。数据空间定 义为一个实体所拥有的所有数据的集合。数据空间与实体一一对应,数据具有时空特性,其空间特性表现在 数据可以来自多个分布的数据源;时间特性表现在数据空间的不断演化。数据空间的主要特征包括[1]: (1)数据多样性 数据多样性包括数据格式的多样性和数据内容的多样性。一个数据空间中可能包含关系表、文本、电子 邮件、图像、音频、视频等形式各异的数据;在一个数据空间中可能存在多份不同格式但是反映同样信息的 数据,比如一份关系表和一份 Excel 表格可能表示的是同一份数据,也可能存在描述同样内容但是版本不同 的数据。 (2 )先有数据、后有格式 这是数据空间和传统数据管理系统最大的不同。传统数据管理系统对数据的格式都是严格要求的,是一 种“先有格式,再有数据”的数据管理方式。数据空间则不同,它对数据格式没有要求,数据能否保存到数 11 据空间的标准只有一个,那就是数据的内容必须是属于这个空间的。数据并不是一进入数据空间就被集成到 某种模式,而是针对用户对数据操作的需求逐步进行数据模式的生成,也就是说,数据模式是在数据的基础 上,根据用户需求总结出来的。 (3 )Pay-as-you-go 理论上,数据空间应当包括与对应实体相关的所有数据,但这往往是不可能的,也是不必要的。因为数 据本身就是不断变化的,新的数据源、数据项不断出现。系统无法将所有与实体相关的数据包括进来。而且 用户的数据操作需求也是一步步产生的,因此数据空间的建立、完善、模式的生成也是一个逐步的过程。因 此,相对于集成系统来说,这种数据管理方式成本比较低。

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档