基于扩展边集比较法的XML文档结构及语义相似性计算研究-计算机软件与理论专业论文.docxVIP

下载本文档

1
0
约6.18万字
约 70页
2019-07-13 发布于上海
举报
版权申诉

基于扩展边集比较法的XML文档结构及语义相似性计算研究-计算机软件与理论专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文摘要中文摘要中文摘要中文摘要由于有着标准化、简洁、结构严谨和可高度扩展等优点，可扩展标记语言 XML在飞速发展的互联网中逐渐成为网络数据表示和交换的标准格式。现今网络上出现了大量的XML文档，这些文档有些被很好地组织存放在XML数据库里，有些则分散在各个站点、服务器上。怎样更好地管理这些文档或者从这些文档中发现有用的信息、知识，已经成了数据库、信息检索和数据挖掘等领域的研究热点。XML文档的相似性计算是其中的一个热点，得到了国内外众多学者的广泛研究。通过检测XML文档之间的相似性，可以对数据仓库中的XML 文档进行版本控制、变化管理，可以将从不同数据源获取的文档进行数据集成、分类或者聚类，亦可以对XML检索结果进行排序等。与传统的文档不同，XML文档是结构化的文档，既包含文本信息，又包含结构信息。XML文档可以用树形结构表示。研究学者提出了许多方法(例如基于树的编辑距离方法，将传统的信息检索方法进行扩展的带结构信息检索模型，边集比较法，快速傅里叶变换方法等)来检测结构化文档的相似性，并取得了很大的研究成果。然而，在时间效率和精度等方面并没有做到最好，还有一些可以改进的空间。本文提出了一种扩展边集比较法来计算XML文档之间的相似性。此方法不仅生成父子节点之间的普通边，还生成祖先和子孙节点之间的拓扑边，给不同层和类型的边赋予不同的权值。并且定义了完全匹配，拓扑匹配和重复匹配三种匹配方式。在边集匹配过程中，算法可以检测出两条边之间是属于哪种匹配，并对每种匹配赋予不同的权值，以更合理地计算相似性。扩展边集比较法不仅可以计算XML文档的结构相似性，还可以结合语义相似性算法实现XML文档的结构和语义相似性计算。本文主要使用XML文档聚类分析实验来验证算法的有效性。实验证实扩‘展边集比较法能获得比现有的基于编辑距离的方法更优的聚类结果。除此之外，本文还进行了语义相似性实验以及RNA二级结构数据聚类分析实验。算法的时间复杂度为O(N2)，有着较好的运行效率。在需要快速计算XML文档的结构相似性时，可以通过为边集建立哈希表以降低算法复杂度。关键词：XML扩展边集比较法结构相似性聚类 Abstract———————————————————一————————————————————————————————————————————————————————————一 Abstract ———————————————————一————————————————————————————————————————————————————————————一 Abstract With the advan‘tage of standard，concision，structure rigorously and highly extendable，the XML(eXtensible Mark-up Language)gradually becomes the standard of web data represent and exchange．Nowadays，a huge amount of XML data c锄e out on the web．Some of them were stored in the XML database with well organized．some were scattered in the websites and servers．Hence，how to better manage this data and discover useful information and knowledge from them is a hot topic in the database，information retrieval and data mining study．Measuring similarity between XML documents is one of the research issues．Similarity detection of XML documents can be used for version control，change management of a data warehousing，integrating XML data which originating from different data sources，XML documents classification or clustering，and ranking the XML query results． Different from fiat documents，XML