上篇:第三章地图制图标记语言报告.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
上篇:第三章地图制图标记语言报告

第三章 地图制图标记语言 尹章才 本章在分析半结构化数据及其通用描述语言特点的基础上,采用XML描述地图制图数据,并定义地图制图标记语言及其模式。 3.1 半结构化数据 为了增强软件的功效,构模和处理半结构化数据(semi-structrued data, SSD)已经成为信息技术的研究热点(Stefanakis 2003)。 3.1.1 数据的结构化类型 数据的结构化程度可以分成三种(邓春晖 2002): 一是完全结构化,如存储在通用数据库中的关系型、面向对象型等数据,它们是严格按照数据库模式的结构录入的; 二是完全无结构,如声音文件或图象文件中的数据(是二进制位流); 三是半结构化,目前还没有一个统一的定义(刘芳 2000),它既不同于毫无结构的文件系统,也不具备数据库系统严谨的结构,它介于两者之间,表现为数据不遵循固定的模式、结构隐含、模式信息量大、模式变化快、模式与数据统一存储,先有数据后有模式、没有强制性模式限制,使得半结构化数据具有很大的灵活性等特点(图3.1.1)。 半结构化数据是一种自描述数据,不必遵循一固定模式。数据库领域将数据描述与数据本身进行了严格的分离。 模式是数据组织方式的详细描述,包括文件名称和数据项(data items),起到对数据约束的作用。 在SSD数据集中,这种模式并不存在或不为人所知(Stefanakis 2003)。 半结构化数据与无结构数据、结构化数据的区别可以从两个角度进行分析: (1)抽象层次,无结构化数据是面向人的自然语言文本数据,便于人们阅读,而结构化数据是面向计算机处理的数据结构,半结构化数据介于两者之间,具有一定自然语言与数据结构的特点,既面向计算机处理,又能便于人们阅读; (2)结构层次,无结构化数据是语言结构,遵循语法(Syntax)、语义(Semantics)、语用(Pragmatics)、结构(Structure)等规则,具有一定的灵活性,而结构化数据是严格的数据结构,如图、树、表等计算机数据逻辑结构,具有严格的模式, 半结构化数据则介于两者之间,既具有无结构数据的语义与语用,也具有结构化数据的部分模式,如嵌套、对象等。无结构数据具有语法结构,不是没有结构,因此数据分类中的结构是指数据结构。 半结构化数据模型既能描述半结构化数据,同时也能描述结构化的数据。 抽取无结构化数据信息,并采用半结构化方法描述,便于计算机处理; 将结构化数据转化为半结构化数据,便于人们阅读,数据能以半结构化为中心实现交换与共享(图3.1.2)。 通用数据库系统都要求所有的数据遵循一个显式定义的、固定不变的、完美的数据库模式,即都是根据已有实际数据先建立合适的数据库模式,再将原始数据以数据库模式的结构形式录入到数据库中。 虽然通用数据库技术具有很多优势,诸如高效的存储和查询,具有并发控制和错误恢复功能等。但它们在管理像Web上的那些半结构化数据时却有两个明显的缺陷(邓春晖 2002): (1)因为数据结构很不规则,在关系数据库系统中,就往往会出现大量的空值,而面向对象数据库系统同样也难设计一个包容不规则数据的数据库模式; (2)因为数据的结构经常变化,还不断有新型数据加进来,所以即使勉强定义了数据库模式,模式也需要经常修改。 半结构数据的主要特性之一是具有可变结构的能力。典型的可变结构含有遗漏数据、重复的数据域或表示中的一些微小的变化(聂培尧 2002)。 半结构化数据通常用于表达如下情况的数据(Stefanakis 2003): 1)采用不同类型的成分,这些不同数据源不受同一模式约束,而且要求数据整合; 2)在异构数据库中交换和转换数据; 3)在浏览数据集时,并不完全知道它们的模式。 在SSD数据集中将会出现诸如: 属性缺失的对象, 同一属性多次出现的对象, 同一属性在不同对象中具有不同的数据类型, 语义相关的信息在多种对象中表达方法不同。 以上这些因素致使传统数据模型(关系模型和面向对象模型)不足以表达和处理SSD数据集。 3.1.2 半结构化数据模型 SSD数据集主要有两个来源:数据库领域和网络技术领域。 数据库领域的科学家已经提出了纯粹的数据库模型和查询语言,用于表达和处理SSD,对象交换模型(Object Exchange Model,OEM)是最好的例子。 网络技术提供了XML技术,非常适合于构模与查询SSD数据集(Stefanakis 2003)。 XML是一种文档格式的描述半结构化数据的标记语言,其最大的特点是可扩展,允许用户自定义标记。 随着XML在工业界被广泛采用,在不同的领域、不同的行业,又各自派生出了许多适用于一些特定领域的XML子集。 如最早出现的描述化学分子结构的化学标记语言CML(Chemical Markup Language)、描述数学公式

文档评论(0)

ee88870 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档