一种元标记语言xml的设计与实现.docxVIP

  • 0
  • 0
  • 约7千字
  • 约 8页
  • 2023-08-14 发布于广东
  • 举报
一种元标记语言xml的设计与实现 1 标记语言ssqp 网络的发展让人们进入了信息爆炸时代。但网上信息的海量和无组织性使得它只是一个杂乱无章的信息仓库,在进行信息检索时常常发生“信息迷向”,因而人们希望能够得到更加“智能化”的信息服务。 HTML文档着重描述Web页面的显示格式,它不容易被解析、检索以及“智能化”的处理,与之相关的基于关键词的检索技术虽然已经相对成熟,但却很难满足“智能化”信息服务的需要。在新需求的推动下,人们提出了一种着重描述Web内容的可扩展标记语言XML。XML是一套定义语义标记的规则,这些标记将文档分成许多部件并对该部件加以标识。它也是元标记语言,能够用来定义与特定领域有关的、具有语义信息的、结构化的标记语言的句法,从而有利于信息的表达和结构化组织,使数据检索和处理更加有效。它的主要优点是: (1)支持异质系统间的相互通信。XML使用的是公开、非专有格式,允许不同专业开发与自己特定领域有关的标记语言,不受版权、专利、商业秘密等知识产权的限制。XML的开放性决定了它可成为异质系统之间进行交流的媒介,各系统只要装有XML解析工具,便可理解以XML为中介由其它系统传送的信息并加以利用,而不用考虑对方的信息格式和使用特殊的软件而完成跨平台的交流,这有力地促进了电子商务和WAP的发展。 (2)保值性。XML是SGML的精简网络版。SGML是一种有着十几年历史的国际标准,是一种用标记来描述文档资料的通用语言。它当初设计的目标之一就是为文件提供较长的寿命,以保证新版的文书编辑软件能够对旧版的文件忠实地再现。XML保留了这个特性,它是自描述的、使用非常简单的数据格式,可以用纯ASCII文本来书写。同时,与压缩文件和串行的Java对象不同,即使丢失一部分数据仍是可以读取的。 (3)结构化和集成的数据。由于XML是数据驱动的标识语言,文档中所有的内容几乎都是数据和数据结构,只有关于XML解析器或包装程序用的指令不以数据为主。因而,XML很容易进行精确检索,并可以根据多种来源集成数据并将其作为一个文档来显示。数据可以进行重新排列,数据的各部分可以根据用户的操作隐藏或显示,这有利于信息仓库的集成处理。总之,XML是元标记语言,用户可以定义自己需要的标记。它描述的是文档的结构和语义而不是页面元素的格式化。很多商业性组织和研究机构都致力于相关技术的研究:XML,XSL,XPath,XML 模式,DTD,PI,XSLT,XSP,JAXPTM,SAX,DOM等术语的相继出现,XML已经显示出了强大的生命力,它的发展必将促进网络质的飞跃。 2 数据库设计及协调模块 由于XML是一种元标记语言,在制定了XML规范后,面临的一个问题是怎样处理XML的标记数据。目前IBM,Oracle等许多组织都致力于这方面的研究工作。它们的基本思想是将XML标记数据放入一定的结构中,这样对数据的检索、分析、更新和输出就能够在更加容易管理的系统和较为熟悉的环境下进行。一种比较自然的想法是采用数据库对XML数据进行存取和操作,将半结构化数据转化为结构化数据,通过查询数据库来提取,综合和分析XML文档的数据。这样不仅可利用相对成熟的数据库技术,而且也代表了未来网络发展的趋势。 目前对于XML与数据库相结合的方法存在着不同的观点:一部分人认为XML只有按XML本身结构存储的数据库才是XML数据库(Native XML Database);另一部分人主张如果能实现对XML的存取则它就是XML数据库(XML-enabled Database);也有一部分人主张两者的结合(Hybrid XML Database),在此分别进行讨论: (1)Native XML Database(NXD)。数据库的根本设计目的是为存储和处理XML文档。它的基本存储单元是XML文档,通过XML相关的标准进行数据库的存储。这种数据库维持原有XML文档的数据结构和相关的元数据,而不关心数据的底层存储格式(关系数据库或是面向对象数据库),只能通过XML特有的相关技术对数据进行存储。Tamino,dbXML 和 X-Hive 都采用这种方法。 (2)XML-Enabled Database (XEDB)。它的基本数据存储单位是XML数据(XML文档所提供的数据),主要是通过增加一个映射层来管理XML数据的存储。数据首先要与一个明确的格式相匹配,符合要求的才能根据预先定义好的规则映射到数据库中(关系数据库或是面向对象数据库),但可能会损失一部分元数据和最初的结构。同时可从现有的数据库中生成XML页面,但不能保证与当初存入的原始页面完全符合。Oracle,Microsoft和许多XML工具软件都不同程度上支持这种功能。比如,R.Burret的XML-DBMS(见图1)就是一种XML文档与关系数据库之

文档评论(0)

1亿VIP精品文档

相关文档