- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文摘要中文摘要
中文摘要
中文摘要
由于有着标准化、简洁、结构严谨和可高度扩展等优点,可扩展标记语言 XML在飞速发展的互联网中逐渐成为网络数据表示和交换的标准格式。现今网 络上出现了大量的XML文档,这些文档有些被很好地组织存放在XML数据库 里,有些则分散在各个站点、服务器上。怎样更好地管理这些文档或者从这些 文档中发现有用的信息、知识,已经成了数据库、信息检索和数据挖掘等领域 的研究热点。XML文档的相似性计算是其中的一个热点,得到了国内外众多学 者的广泛研究。通过检测XML文档之间的相似性,可以对数据仓库中的XML 文档进行版本控制、变化管理,可以将从不同数据源获取的文档进行数据集成、 分类或者聚类,亦可以对XML检索结果进行排序等。
与传统的文档不同,XML文档是结构化的文档,既包含文本信息,又包含 结构信息。XML文档可以用树形结构表示。研究学者提出了许多方法(例如基于 树的编辑距离方法,将传统的信息检索方法进行扩展的带结构信息检索模型, 边集比较法,快速傅里叶变换方法等)来检测结构化文档的相似性,并取得了很 大的研究成果。然而,在时间效率和精度等方面并没有做到最好,还有一些可 以改进的空间。
本文提出了一种扩展边集比较法来计算XML文档之间的相似性。此方法不 仅生成父子节点之间的普通边,还生成祖先和子孙节点之间的拓扑边,给不同 层和类型的边赋予不同的权值。并且定义了完全匹配,拓扑匹配和重复匹配三 种匹配方式。在边集匹配过程中,算法可以检测出两条边之间是属于哪种匹配, 并对每种匹配赋予不同的权值,以更合理地计算相似性。扩展边集比较法不仅 可以计算XML文档的结构相似性,还可以结合语义相似性算法实现XML文档 的结构和语义相似性计算。本文主要使用XML文档聚类分析实验来验证算法的 有效性。实验证实扩‘展边集比较法能获得比现有的基于编辑距离的方法更优的 聚类结果。除此之外,本文还进行了语义相似性实验以及RNA二级结构数据聚 类分析实验。算法的时间复杂度为O(N2),有着较好的运行效率。在需要快速
计算XML文档的结构相似性时,可以通过为边集建立哈希表以降低算法复杂度。
关键词:XML扩展边集比较法结构相似性聚类
Abstract———————————————————一————————————————————————————————————————————————————————————一
Abstract
———————————————————一————————————————————————————————————————————————————————————一
Abstract
With the advan‘tage of standard,concision,structure rigorously and highly extendable,the XML(eXtensible Mark-up Language)gradually becomes the standard of web data represent and exchange.Nowadays,a huge amount of XML
data c锄e out on the web.Some of them were stored in the XML database with well
organized.some were scattered in the websites and servers.Hence,how to better manage this data and discover useful information and knowledge from them is a hot topic in the database,information retrieval and data mining study.Measuring similarity between XML documents is one of the research issues.Similarity detection of XML documents can be used for version control,change management of a data warehousing,integrating XML data which originating from different data sources,XML documents classification or clustering,and ranking the XML query
results.
Different from fiat documents,XML
您可能关注的文档
- 基于开源软件的地表覆盖知识地图集系统技术研究与实现-地图制图学与地理信息工程专业论文.docx
- 基于抗氧化和促造血双重调控作用研究鸡血藤及其活性单体儿茶素的抗辐射机制-药理学专业论文.docx
- 基于情景规划的世园会应急要素研究-供热、供燃气、通风及空调工程专业论文.docx
- 基于扫描探针电子能谱学的表面等离子体激元研究-原子分子物理专业论文.docx
- 基于拟态物理学的全局优化算法设计及性能分析-控制理论与控制工程专业论文.docx
- 基于朋友关系的交叉领域推荐算法-软件工程专业论文.docx
- 基于弱监督的图像区域自动标注算法研究-计算机科学与技术专业论文.docx
- 基于控制权的股东行为与公司决策研究-西方经济学专业论文.docx
- 基于情绪管理的团体辅导对青少年自伤的干预研究-教育学专业论文.docx
- 基于快速独立分量分析与小波阈值去噪的盲源分离研究-信息与通信工程专业论文.docx
原创力文档


文档评论(0)