基于XML数字图书馆检索技术研究.docVIP

下载本文档

2
0
约4.77千字
约 9页
2018-08-28 发布于福建
举报
版权申诉

基于XML数字图书馆检索技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于XML数字图书馆检索技术研究

基于XML数字图书馆检索技术研究　　[摘要]随着XML数字图书馆的迅速发展,怎样快速有效地对XML文档进行查询和处理,正受到越来越多的重视,本文对XML数字图书馆检索系统进行了分类比较。并从检索模型、文档聚类、索引技术3个方面对XML数字图书馆检索研究方向进行了阐述。　　[关键词]XML检索;检索模型;文档聚类;索引技术　　DOI:10.3969/j.issn.1008-0821.2010.07.027 　　[中图分类号]G250.76 [文献标识码]A [文章编号]1008-0821(2010)07-0097-02 　　Research of the Digital Library Search Technology Based on XMLShen Feiju 　　(Library,Nantong University,Nantong 226009,China) 　　[Abstract]With the development of XML digital library,how to search and process XML documents quickly and effectively is becoming more important.This paper classified and compared the XML digital library search systems,and described the directions of research of XML digital library search in searching module,document clustering,index technology. 　　[Keywords]XML retrieval;search module;document clustering;index technology 　　　　1 基于XML数字图书馆检索问题的提出　　基于XML的数字图书馆正在迅猛发展,主要原因是XML作为自描述的标记语言,能够根据具体应用灵活地表现异构数据源中的各种信息,包括应用程序之间的数据交换、结构化和半结构化文档以及数据库中数据的输出。特别适合在不同系统之间进行数据格式的转换或为已有的系统设计新的功能时,可以方便的存储数据,以备能容易地被其他系统所使用,所以XML作为数字图书馆应用的数据传输和交互的格式,具有广泛的应用前景。　　XML文档充满整个互联网,但基于XML的数字图书馆也存在一个难题,那就是怎样快速有效地对XML文档进行查询和处理。随着XML数字图书馆获得越来越广泛的应用以及Web技术的不断发展,如何检索和利用XML数字图书馆信息的相关研究正受到越来越多的重视,可以预见,XML资源的充分利用将围绕着查询展开[1]。　　2 XML数字图书馆检索系统类型比较　　目前的XML数字图书馆检索系统有许多,可以将它们分为三类:即数据库方式、信息检索方式和混合方式。　　数据库方式是指将XML数据转换为数据库的数据,然后通过数据库检索技术来实现对XML数据的检索。数据库的成熟技术和优越的性能为XML的存储提供了基础:数据库通常可以处理海量的数据信息,允许多个用户同时处理信息,支持版本控制和不同级别的安全访问控制等。数据库方式的优势在于可使用标准(关系和面向对象)数据库引擎,无需投资开发新的系统;这种方法也有许多缺陷。首先,直接把遵从不同模式的异构XML文档导入数据库引擎是困难的。其次,在因特网这样的动态环境下,数据的结构会经常发生改变,这将导致数据库模式的频繁更新。　　信息检索方式可使用信息检索技术来查询XML文档,它将每个文档看作是添加了标注标签信息的文本文档。标注标签的处理方法有几种:一种方法是丢掉全部标签,该方法的优点在于简单,缺点是信息丢失,将会降低检索效果;一种方法是从要检索的XML文档中抽取重要的结构和上下文信息,并建立索引。另一种更复杂的方法是为标签建立索引,如同普通索引词一样。显然,无需为结束标签建立索引,因为开始标签已经提供了结构信息。最好的方式是为标签和元素内容建立不同的独立的索引,以便支持更灵活的检索需求。信息检索方式可以应用于XML文档的检索,以获得更好的准确率。该方法有以下3个优点:(1)现存的检索系统只需作某些修改,就可应用于XML文档的检索;(2)XML搜索引擎的使用与传统搜索引擎相似,用户无需训练即可轻松使用;(3)由于它不包括结构信息,它的索引代价更小。但是这种方式的问题是它可能不像数据库方式一样准确,因为它基于内容近似匹配的技术,不支持复杂的文档结构匹配。　　混合方式结合了数据库和信息检索方式的优点,使用较简单的查询表达实现对XM