- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
毕业论文XML数据查询方法研究.
内容摘要
XML自W3C组织提出之后,逐渐成为因特网中数据表示和数据交换的新标准,越来越多的组织使用XML描述信息。随着XML信息交流的增多,如何快速的从大量的XML数据中进行高效的数据查询已经成为众多研究者所关注的问题。本文从存储角度出发,研究了不同的存储方式所对应的不同查询方式。
各种查询方式有不同的使用环境,本文将对各种方式进行详细介绍。
关键词:XML数据查询
XML数据查询方法研究
XML简介
研究背景及意义
在当今的IT业中,XML(Extensible Markup Language,可扩展标识语言)越来越成为一个热门的话题。XML是由W3C(万维网联合组织)制定的标准,具有良好的数据存储格式、可扩展性、高度结构化和便于网络传输等优点,从而成为了新一代的Web语言。XML提供了直接处理数据的通用方法,为基于Web的应用提供一个描述数据和交换数据的有效手段,有利于信息的表达和结构化组织。因此,可以更好地满足网络时代在电子商务远程教育、数据库与引擎等领域的多态信息的交互、传输和再现的需求。
越来越多的数据使用XML的标准进行表示和存储,如何对XML文档进行有效的查询是一个热点研究问题。
XML的产生
目前,WEB上的通用标识语言是超文本标识语言HTML(HyPertext Markup language),正是由于HTML的出现,才使得Internet迅速发展到今天这样庞大的规模。HTML来自SGML (standard Generalizes Markup Language,标准通用标记语言),SGML是一种用标记来描述文档资料的通用语言,它包含了一系列的DTD(Document Type Definition,文档类型定义)规范,DTD中定义了标记的含义,因而SGML的语法是可以扩展的。但是SGML十分复杂、庞大、不易学,在计算机上实现也比较困难。鉴于这些原因,WEB的发明者根据当时计算机技术的能力,提出了HTML语言。HTML语言只使用了SCML中的很小一部分标记,为了便于计算机上实现,HTML规定的标记是固定的,即HTML语法是不可扩展的,它不需要包含DTD。HTML以其简单精练的语法、极易掌握的通用性与易学性,使Web网页可以接近于每个普通人,互联网也得以迅猛发展。
然而,电子商务、电子图书、远程教育等全新领域的异军突起,逐渐发展成为互联网世界重要的组成部分,随之而来的是Web文件的复杂化、多样化、智能化,于是高容量、高信息量、高效率便为网络信息传输技术发展的追求。与此同时,还有另一种需求变得愈发广泛而迫切,即数据能否根据不同用户不同需求而有不同的效果、不同的形式表现出来。这一切都是HTML所不能满足的,开发一种新的Web页面语言已势在必行。由于HTML只使用一组固定的元素类型,不可扩展,所以不能针对特定文档类型而设计,而且创建之后经历多年一直没有非常严格的定义。因此随着Web的互操作性和多样性受到专用格式化标记的日益威胁时,Web标准化组织W3C (Worldwide Web Consortium,万维网联盟)建议使用一种精简的SGML版本—XML应运而生。
1.2.1 半结构化数据概念 特点及数据描述
XML数据的特点之一就是半结构化,半结构化数据是介于完全结构化数据和完全无结构的数据之间的之中数据形式,具有自描述性。一些数据源(如Web)的数据并非像传统的结构化数据那样有严格的数据格式和数据类型,即为半结构化数据。半结构化数据的特点是没有事先给定的数据模式,或者数据模式对数据的约束不强,模式的规模比较大,模式是经常变动的,数据未赋予严格的类型。它具有以下特点:
(1)先有数据,后有模式。一般是先进行查询,查询结果即为数据结构及其模式。
(2)用于描述数据的结构信息,而不是对数据结构进行强制性约束。
(3)规模可能很大,甚至超过源数据的规模,而且因数据的不断更新而处于动态的变化过程中。
(4)不讲求精确性,可能描述其中一部分结构,也可能根据数据处理的不同阶段的视角而不同。
(5)非常灵活,能满足网络这种复杂分布式环境的要求。
(6)加大了数据处理的难度。
1.2.2 HTML与XML
HTML: 即超文本标识语言,是编制Web页面文档的语言,它定义结构化文本类型和标识这些文本类型。HTML 所含的标识符定义包括:文档结构,字形字体,版面布局,链接,等超文本文档结构,这些标识符使Web浏览器能够阅读和重新格式化任何Web页面。HTML 的最新版本是HTML4.0,它支持OBJECT标记和层叠风格表单(CSS)。通过支持ISO10646字符集,它支持任何语言所需的标识,为作者插入对象和脚本提供了途径,并在文件中支持格式项。但HTML仅关注Web浏览器的页面安排,缺乏对结构化数
文档评论(0)