- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Classified Index: TP311.135.4 U.D.C: 004.6
Dissertation for the Master Degree in Engineering
SUBSEQUENCE MATCHING BASED COMPRESSED XML QUERY
Candidate:Gao
Candidate:
Gao Hongyuan
Supervisor: Prof. Chu Binshe
Academic Degree Applied for: Master of Engine
Speciality: Computer Scienc
Affiliation: School of Com
Technology
Date of Defence: June, 2009
Degree-Conferring-Institution: Harbin Institute o
e and Technology
puter Science and
f Technology
哈尔滨工业大学工学硕士学位论文
哈尔滨工业大学工学硕士学位论文
-
- I -
摘要
XML 在许多应用中已经成为数据交换的标准。然而,XML 数据的自描述特 性和半结构化特性使得 XML 数据中存在大量的数据冗余,这使得人们在获得 XML 数据带来的灵活性的同时不得不忍受数据存储和数据交换的低效率。数据的 XML 表示格式经常比其它表示格式多占用 5 到 10 倍的空间。尽管国内外已有不 少关于 XML 压缩方面的研究,但是尚没有一种压缩方法支持在压缩文档上直接执 行包括 Twig 查询在内的各种复杂查询。为了提高 XML 数据存储和数据查询的效 率,本文研究 XML 数据的压缩方法,以及在压缩 XML 数据上直接执行复杂查询 的方法。
本文的压缩方法在对文档进行压缩时保留了源文档的框架,这使得本文的查 询算法可以在压缩文档上直接工作而无须解压文件,也使得许多 XML 处理工具只 需经过少量修改就能在压缩文档上工作。本文的压缩方法减少了 XML 文档的存储 空间,也加快了在查询时由文档到序列的转换速度。实验表明本文的压缩算法在 支持查询情况下仍具有较低的压缩率和较快的压缩速度。
本文的查询方法首先把 XML 文档和 XML 查询按一定规则转换为序列,然后 在这两个序列上进行子序列匹配,子序列匹配的结果再经过结构约束检查以得到 最终的查询结果。这种查询方法支持在本文的压缩方法上直接执行包括 Twig 查询 在内的各种复杂查询。这一算法既可以工作在经本文的压缩方法压缩过的 XML 文 档上,也可以工作在普通的未压缩的 XML 文档上。
在整个查询过程中,序列匹配算法是关键。本文指出了现有的序列匹配算法 的缺点并提出了新的序列匹配算法。理论分析和实验都表明本文的算法在执行时 间上要大大优于现有算法。此外,本文还提出了为文档序列建立索引、文档序列 的整数化、同时进行序列匹配与结构检查等优化策略以加快查询的执行。
关键词 XML 数据压缩;查询处理;序列匹配
-
- II -
Abstract
The Extensible Markup Language (XML) has emerged as a popular format for data interchange in many areas. While XML offers the advantages of flexibility and extensibility, its expressiveness leads to greater verbosity. It is not uncommon for an XML representation of a data set to be five to ten times larger than alternative data encoding formats. Although there has been many research works on compressed XML data, none of them could enforce complex query like twig query directly on compressed XML documents. In order to improve the storage and query efficiency of XML data, this paper focused on the compression method of XML data and the execution of complicated XML query on compressed
您可能关注的文档
- 基于作业成本法的加工型服装企业成本控制研究-服装设计与工程专业论文.docx
- 基于作业成本法的单病种付费模式研究-会计专业论文.docx
- 基于作业成本法的全面预算管理体系相关问题研究-会计学专业论文.docx
- 基于作业成本法的成本控制-工商管理专业论文.docx
- 基于作业成本法的模糊库存成本控制模型研究-应用数学专业论文.docx
- 基于作业成本法的汽车修理企业成本控制研究-控制工程专业论文.docx
- 基于作业成本法的民用航空转包企业成本控制研究-工商管理专业论文.docx
- 基于作业成本法的物流企业成本精细化管理分析-会计学专业论文.docx
- 基于作业成本法的物流外包成本优化控制研究-工业工程专业论文.docx
- 基于作业成本法的物流企业成本核算体系研究-会计专业论文.docx
- 基于子带的语音增强方法研究与实现-信号与信息处理专业论文.docx
- 基于子带分解的分数傅里叶变换语音增强算法研究-通信与信息系统专业论文.docx
- 基于子带能量法的发动机振动信号分析研究-动力机械及工程专业论文.docx
- 基于子空间人脸识别算法的研究-电机与电器专业论文.docx
- 基于子空间分析和局部二值模式的手指静脉识别算法研究-电子与通信工程专业论文.docx
- 基于子空间分析的人脸识别算法研究-信号与信息处理专业论文.docx
- 基于子空间学习的人脸特征分析及应用-计算机应用技术专业论文.docx
- 基于子空间分析特征提取的人脸识别研究-计算数学专业论文.docx
- 基于子模型技术的梁式转换框支剪力墙结构地震损伤数值模拟-土木工程专业论文.docx
- 基于子空间方法的PMSM系统辨识及参数估计-电力电子与电力传动专业论文.docx
原创力文档


文档评论(0)