基于web的xml中文检索模型的分析与实现-analysis and implementation of xml chinese retrieval model based on web.docx

基于web的xml中文检索模型的分析与实现-analysis and implementation of xml chinese retrieval model based on web.docx

基于web的xml中文检索模型的分析与实现-analysis and implementation of xml chinese retrieval model based on web

山东大学硕士学位论文摘要,,枷是网络上数据表示和交换的主要标准提高检索效率和准确度是信息。,,检索面临的主要问题信息检索系统与传统的信息检索系统不同主要体现在,,三个方面首先检索的对象不同检索的对象是元素而不是传统信息检,,索的文档其次检索的索引不仅需要建立内容索引还需要建立结构信息索,引最后由于检索的对象不同所以检索的结果相关度计算算法也比较复,,杂不仅需要按照传统的信息检索理论考虑关键字之间的距离还需要考虑。,文档树的结构,为满足结构复杂大规模的信息检索的需要本文深入研究了信息。,检索的已有理论及原型系统主要研究了信息检索系统的索引结构和索,,引检索算法以及检索结果的相关度计算方法三个方面的内容提出并实现了一。种基于关键字查询的中文检索模型本文包括个方面的内容第一分析,了已有的数据索引结构中存在的问题提出了一种高效的基于倒排表的“ 文,档一关键字一节点”两级索引结构该结构在不显著增加索引的空间占用的情况下,包含了更加丰富的文档的结构和内容信息缩小了索引检索时文档搜索的范,,,围提高了检索的效率第二在提出的基于倒排表的“ 文档一关键字一节点”两,级索引结构的基础上提出了一种高效的索引检索算法该算法与索引结构相结,,,合通过优化索引结构的搜索顺序有效的提高了基于关键字的信息检索的,检索效率第三本文提出了一种基于一的查询结果相关度计算算法该算,,法基于已有的信息检索理论中结果相关度计算算法既考虑了数据中关键字,出现的位置又考虑了翔文档的树型结构对查询结果相关度的影响从而提高,。了检索的效率第四设计并实现了一个中文信息检索系统的核心功能原型,系统一。系统是一个中文枷信息检,索系统集成了本文提出的“ 文档一关键字一节点” 两级索引结构基于此索,引结构的索引查询算法和结果相关度计算算法实验证明此系统可以比较准确高。效的完成数据的检索关键词翔信息检索系统关键字查询倒排表索引相关度算法第页山东大学硕士学位论文卿,如一,雌加明翎,倒礼,劝对翎入’一一,一劝“入卫二切,,劝翎,劝加’而一,,袖侧,,勿朗劝留,翎理即场侧州叮·心明址第一页一一一一一一一山东大学硕士学位论文绪论研究背景,随着互联网的兴起网络上的信息大量涌现这些信息从结构化程度的角。,,度可以划分为三类第一种是完全结构化的数据如关系型数据和面向对象的数,、,据第二种是无结构的文本数据如纯文本文件等还有一种新兴的数据结构,就是半结构化数据这种数据的最大特点是拥有不规则可变的数据结构最,典型的半结构化数据就是」它己经成为。工以及电子商务中进行数据表示和数据交换的标准、、由于其所具有的自描述性灵活的数据结构以及丰富的数据表示能力,、、。等特点现在己经被广泛应用到工智能信息检索电子商务中的数据表、、。示和数据交换数据集成数字图书馆等领域数据指数级,的增长要求实现对数据更有效的数据管理能力和更快更准确的查询,因此近些年来有许多的研究者以及企业都开始研究面向数据的信息管理,。系统以满足上述需求,,大量信息的出现对信息检索提出较高的要求特别是针对互联网上的信息。的检索传统的结构化数据和无结构的文本数据我们都己经拥有比较成熟的。,检索理论和检索工具结构化的数据可以采用关系型数据库或对象型数据库进,行管理而无结构的文本我们则采用可以信息检索。。【〕的方式进行访问但是传统的文本数据检索的理论和方法并不适用于。数据的检索如何提高检索效率和准确度是信息检索面临的主要问题国内外研究发展情况的提出,年月万维网协会设计提出了的概念它是〔〕的一个,。子集是针对和的局限性而创立的既具有的强大功能和第页山东大学硕士学位论文,。。可扩展性同时又具有的简单性保留了的功能删除了。,,,,,中所有非核心的未被使用的和含义模糊的部分其复杂程度降为的,,不仅适用于站点在电子商务数据库知识管理数据交流和,。,,。共享自然语言转换等方面都有广泛的应用年以后在计算机科学,,外的领域也得到了应用例如等语言,作为一种元标记语言可以用来定义其他的标记语言并且这种标记。,语言的元素标记是由用户自己定义的的另外一个重要特点它将文档内容,。和显示样式分隔开来文档中的标记是用来描述数据元素的含义而不是,描述其如何显示因此是一种自描述的数据数据的优点在于。,,适用于上的数据交换由于上存在的数据既有结构,化数据也有无结构文本还有如音频和视频那样的流数据数据的出现,。使得我们可以实现各种格式数据之间的交换因为其具有数据自描述性、能实现更有意义更准确的搜索数据的自描述能力使得搜索能够,依靠标记和文档内元素之间的依存关系实现更加准确的定位真正从根本上解。。决了当前信息搜索的问题,它能实现异构系统间的通信传统的结构化数据库难以适应多系统间异,构数据的融合而数据由于其自描述性能很好地适应这种数据集成的需要。这为未来电子商务的发展创造了良好的软件条件规信

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档