- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于前缀编码模型映射改进方法研究
基于前缀编码模型映射改进方法研究
[摘要]提出基于前缀编码的模型映射改进方法,实现XML半结构化数据到关系数据库的映射,从而为将半结构化数据管理转化为传统关系数据库管理奠定基础。
[关键词]半结构化数据 关系数据库 XML 前缀编码
中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2009)0120057-01
一、引言
互联网上存在着各种形式的数据,其数据结构的组织方式也各不相同,因此,半结构化数据模型应运而生,其无模式及自描述的特点适宜于描述网上数据。但传统的数据库管理系统主要用于管理结构化的数据,半结构化数据与传统的数据库管理系统的模式有很大不同。如何对半结构化数据实施有效的管理成为新的研究领域。
二、半结构化数据的描述
(一)XML半结构数据
Internet的发展使XML成为互联网上数据交换或数据浏览的转换媒介,XML数据属于半结构数据模型。专用的半结构化数据管理系统目前仍处于初步实验阶段。但是可行的方法是将半结构化数据转化为结构化数据,采用关系数据库对XML数据进行存储和操作。这样才有可能把Web上海量的半结构化信息结构化,进行统一的管理、控制和操作。
(二)半结构化数据的描述
目前对半结构化数据的自动抽取、数据模型、查询语言等一种常见的描述方法的模型是OEM模型[1]。OEM模型由表示对象的结点和带标签的有向边构成的图。在OEM模型中所有的实体均为对象,每个对象用一个四元组来表示:(ID,LBL, type, value)。其中LBL是对象的标签描述,type是对象类型。OEM模型可以用一个带根有向图G(r,V,E)来表示,其中r表示根节点;V表示对象集;E是有向边的集合,边上的标签表示对象之间的关系,记作,他表示对象I通过标签为L的边指向另一个对象J。每一个图都有一个对应的存储表示方法,邻接矩阵和邻接表是图的两种最常用的存储结构。OEM模型是一个有向图,于是就可以采用有向图的存储表示方法来表示OEM模型。
三、XML半结构化数据到关系数据库的映射
随着XML技术的出现和对XML技术的深入研究,半结构化数据和XML数据模型之间的对应关系越来越明显,因而把XML数据到关系数据库的映射为是至关重要的一步。
(一)XML文档编码
XML文档可以被描述为树模型,文档中的元素、属性和值对应于树模型中的结点,其中属性用@前缀区别,文档中元素与元素、元素与结点以及元素与值对应于树模型中的边。
将XML文档映射为关系模式存储,可以通过对XML文档树的结点进行编码,通过编码直接判断结点之间的结构关系。编码方案主要有以下几种:位向量编码、区间编码、前缀编码和哈夫曼编码等。前缀编码也称Dewey编码[2]。前缀编码直接将一个结点的双亲结点的编码作为该结点编码的前缀,这种编码方案保存了文档的结构信息。对于前缀编码,要判断一个结点v是否是另一个结点u的后裔,只需判断字符串c(u)的前缀是否是c(v)的前缀。前缀编码的一个重要性质是它们的字典有序:以结点r为根的子树中的任意一个结点u,它的前缀编码c(u)大于(小于)它的左兄弟子树(右兄弟子树)中所有结点的前缀编码。因此,前缀编码不仅能够有效的支持包含关系的计算,而且能够有效地支持文档位置的计算。本文在采用了Dewey编码的基础上,对XML文档进行关系模式存储。对XML文档树从根结点以0开始编码,作为第一层次的结点;第二层次的结点编码从00,01,02……开始,依次递增;同理,第三层次的结点编码从000,001,002,003……开始,依次递增,依次类推。但是有一点需要我们注意,如果XML文档树的度不超过10,我们可以从0到9数字进行扩充,如果XML文档树的度超过10则可以用a,b,c等字母依次排列进行编码。
(二)XML文档存储结构
对XML文档树编码工作完成之后,设计若干关系来存储XML文档树中的结点信息、结点值信息和结构信息。本文使用三个表来存储XML文档,存储XML文档的关系存储模式如下所示:
Document (DocID, XMLDoc)
Code_Path (DocID, Code, Pathexp)
Element (DocID, Code, Element, flag, value)
其中,Document表用来存储XML文档信息,DocID为XML文档的代码,XMLDoc为XML文档的保存路径;在Code_Path表中,Code为各结点对应的编码,Pathexp为采用路径方式表达的结点位置;在Element表中,Element为结点的元素名或者是属性名,flag为结点元素的类型,结
您可能关注的文档
最近下载
- 新人教版八年级上册英语 八上unit 6 课文原文语法填空+练习 教师版.docx VIP
- 中国历史地理2014 第三讲空谷足音.pdf VIP
- 中国历史地理第四讲 江河之变2 .pdf VIP
- 北大-中国历史地理-第三讲 古代交通第三讲3.ppt VIP
- GZSMARTS_2—2018智慧园区建设与验收技术规范 2018 14页.pdf VIP
- 2016年造价工程师《造价管理》常考题(四).pdf VIP
- 压力检测仪表校验 BT200手持操作器组态设置(化工仪表检验课件).pptx
- 老旧小区改造知识课件.pptx
- 裂纹愈合热障涂层粉体材料的制备方法.pdf VIP
- 运筹学教程第五版胡运权课后习题答案.docx
原创力文档


文档评论(0)