面向Web的XML检索关键技术的分析.pdfVIP

下载本文档

6
0
约10.73万字
约 75页
2015-10-30 发布于安徽
举报

面向Web的XML检索关键技术的分析.pdf

摘要 web作为一个全球化信息空间，蕴含着海量的信息和知识。随着w曲上资源的日趋丰富，各种基于 web的信息检索服务应运而生并得到了迅速发展。实践证明，web搜索引擎是一个非常有用的信息检索工具。但对任一用户查询，搜索引擎都将返回成千上万个所谓的“匹配”文档，其中可能只有一小部分与用户的查询目标有关，而绝大部分毫无关系。如何组织和消化如此大量的信息，一直是困扰着最终用户的难题。如何帮助用户准确提出信息需求，并快速获得“满意”的查询结果，从而提高检索的效率，一直是研究的热点。尽管目前有大量的研究工作关注于web数据检索，但现有的技术还远不能令人满意。式存在。xML规范的提出，使得信息的组织更加规范，使更准确的信息查询成为可能。随着xML获得越来越广泛的应用以及w曲技术的不断发展，如何检索web上海量的xML数据受到学术界越来越多的重视。在对目前国内外研究现状进行深入剖析的基础上，本文提出了一种面向web的xML信息检索系统解决方案，对其中的检索模型、文档聚类、索引以及检索等关键技术进行了深入研究。本文的主要工作可以概括为以下几个方面统一向量表示方法；定义了xTeⅡ11的权重计算方法，并给出了文档和查询向量的相似度计算方法。x2vsM支持对xML文档进行内容和结构查询，支持任意嵌套层次的元素作为返回结果，还支持基于内容和结构相关性的查询结果排序，同时继承和保持了vsM简单易用等优点。 2．研究了xML文档的聚类。分析和比较了直接和间接的聚类策略，在此基础上提出一种基于路径信息的xML文档问接结构聚类算法PBsc。它没有直接计算文档的结构距离，而是采用间接聚类的策略。与其它基于编辑距离的算法相比，具有算法简单、效率较高以及聚类过程直观等优点。聚类结果可用于用户导航以及提高检索的效果。把对xML文档的路径查询转换为后缀树中的字符串匹配，显著提高了查询处理效率；对传统的后缀树构建算法做了改进，使之能够用来创建由路径集合转换得到的字符串集合的广义后缀树；提出了间接包含路径查询，即查询式包含子孙一后代关系(含有“，／”)的高效处理算法。 PIGsT的构造时间复杂度和空间复杂度是线性的，只与查询字符串的长度有关。素相关性计算的查询处理算法；对传统的倒排索引进行了扩展，提出了一种带Dewey编码的倒排索引；结合结构索引PIGsT，提出了一种高效的内容索引和结构索引的联合索引结构，以支持对xML文档的检索及权重的动态计算；研究了路径的相似性问题，给出相应的计算方法，相关性排序。关键词：web，xML，索引结构，信息检索，文档聚类，检索模型 III ABSTRACT Asthe containsallkindsof 910balinfoHnationma丽x{WWW data，including andnostrucmfeddata．Muchresearchhasfocusedonthe ofWebjnfomation its stL】dy retrieval．HoweveL currentstatusisstlllf打f如msatisfactionofWebusers XMLhasbecomethedefactost{mdardto datajnWWWa1】dit aunifbmdatamodel represent provides forW曲data1tisreasonableto thatmostofthedataonWebwjllbein the on imagjne XM巴，asresult，research ro】einWebinfom

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

面向Web的XML检索关键技术的分析.pdfVIP