基于前缀编码模型映射改进方法研究.docVIP

下载本文档

1
0
约2.91千字
约 7页
2018-08-29 发布于福建
举报
版权申诉

基于前缀编码模型映射改进方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于前缀编码模型映射改进方法研究

基于前缀编码模型映射改进方法研究　　[摘要]提出基于前缀编码的模型映射改进方法，实现XML半结构化数据到关系数据库的映射，从而为将半结构化数据管理转化为传统关系数据库管理奠定基础。　　[关键词]半结构化数据关系数据库 XML 前缀编码　　中图分类号：TP3 文献标识码：A 文章编号：1671－7597（2009）0120057－01 　　　　一、引言　　　　互联网上存在着各种形式的数据，其数据结构的组织方式也各不相同，因此，半结构化数据模型应运而生，其无模式及自描述的特点适宜于描述网上数据。但传统的数据库管理系统主要用于管理结构化的数据，半结构化数据与传统的数据库管理系统的模式有很大不同。如何对半结构化数据实施有效的管理成为新的研究领域。　　　　二、半结构化数据的描述　　　　（一）XML半结构数据　　Internet的发展使XML成为互联网上数据交换或数据浏览的转换媒介，XML数据属于半结构数据模型。专用的半结构化数据管理系统目前仍处于初步实验阶段。但是可行的方法是将半结构化数据转化为结构化数据，采用关系数据库对XML数据进行存储和操作。这样才有可能把Web上海量的半结构化信息结构化，进行统一的管理、控制和操作。　　（二）半结构化数据的描述　　目前对半结构化数据的自动抽取、数据模型、查询语言等一种常见的描述方法的模型是OEM模型[1]。OEM模型由表示对象的结点和带标签的有向边构成的图。在OEM模型中所有的实体均为对象，每个对象用一个四元组来表示：(ID,LBL, type, value)。其中LBL是对象的标签描述，type是对象类型。OEM模型可以用一个带根有向图G(r,V,E)来表示，其中r表示根节点；V表示对象集；E是有向边的集合，边上的标签表示对象之间的关系，记作，他表示对象I通过标签为L的边指向另一个对象J。每一个图都有一个对应的存储表示方法，邻接矩阵和邻接表是图的两种最常用的存储结构。OEM模型是一个有向图，于是就可以采用有向图的存储表示方法来表示OEM模型。　　　　三、XML半结构化数据到关系数据库的映射　　　　随着XML技术的出现和对XML技术的深入研究，半结构化数据和XML数据模型之间的对应关系越来越明显，因而把XML数据到关系数据库的映射为是至关重要的一步。　　（一）XML文档编码　　XML文档可以被描述为树模型，文档中的元素、属性和值对应于树模型中的结点，其中属性用@前缀区别，文档中元素与元素、元素与结点以及元素与值对应于树模型中的边。　　将XML文档映射为关系模式存储，可以通过对XML文档树的结点进行编码，通过编码直接判断结点之间的结构关系。编码方案主要有以下几种：位向量编码、区间编码、前缀编码和哈夫曼编码等。前缀编码也称Dewey编码[2]。前缀编码直接将一个结点的双亲结点的编码作为该结点编码的前缀，这种编码方案保存了文档的结构信息。对于前缀编码，要判断一个结点v是否是另一个结点u的后裔，只需判断字符串c(u)的前缀是否是c(v)的前缀。前缀编码的一个重要性质是它们的字典有序：以结点r为根的子树中的任意一个结点u，它的前缀编码c(u)大于（小于）它的左兄弟子树（右兄弟子树）中所有结点的前缀编码。因此，前缀编码不仅能够有效的支持包含关系的计算，而且能够有效地支持文档位置的计算。本文在采用了Dewey编码的基础上，对XML文档进行关系模式存储。对XML文档树从根结点以0开始编码，作为第一层次的结点；第二层次的结点编码从00，01，02……开始，依次递增；同理，第三层次的结点编码从000，001，002，003……开始，依次递增，依次类推。但是有一点需要我们注意，如果XML文档树的度不超过10，我们可以从0到9数字进行扩充，如果XML文档树的度超过10则可以用a,b,c等字母依次排列进行编码。　　（二）XML文档存储结构　　对XML文档树编码工作完成之后，设计若干关系来存储XML文档树中的结点信息、结点值信息和结构信息。本文使用三个表来存储XML文档，存储XML文档的关系存储模式如下所示：　　Document (DocID, XMLDoc) 　　Code_Path (DocID, Code, Pathexp) 　　Element (DocID, Code, Element, flag, value) 　　其中，Document表用来存储XML文档信息，DocID为XML文档的代码，XMLDoc为XML文档的保存路径；在Code_Path表中，Code为各结点对应的编码，Pathexp为采用路径方式表达的结点位置；在Element表中，Element为结点的元素名或者是属性名，flag为结点元素的类型，结