- 5
- 0
- 约 6页
- 2017-08-18 发布于山东
- 举报
校园网多数据源信息检索系统的设计与实现
关键词:信息集成异构数据ODINutchLucene
摘要:高校校园网信息资源数量巨大,各信息发布系统的相互独立及多种异构数据源的使用对在校园网范围内进行统一的信息检索设置了障碍,系统着重解决由非结构化文本数据和结构化数据库数据形成的多数据源的集成与整合问题,在Nutch搜索引擎基础上利用Lucene接口对多种源数据建立索引,构建多数据源全文信息检索平台,从而有效地实现全网信息检索并提高检索速度和精度。
一、引言
随着校园信息化进程的不断深入,校园网上信息资源的数量迅速膨胀,各种相互独立的信息发布系统在提高效率的同时,也为校园网范围内统一的信息检索设置了障碍,校园网信息资源主要包括两类数据:一类是非结构化文本数据,以网页文件、文本文件、电子邮件等形式存储在多个信息系统当中:另一类是结构化数据,以数据记录的形式存储在不同的异构数据库之中。由于各独立信息系统间没有相互连接的渠道,快速检索校园网内部信息存在着较大困难。如何设计一个稳定而高效的架构,能够对多种信息数据源进行集成与整合,实现全网范围内全文信息检索成为校园信息化过程中一个重要研究课题。
校园网信息检索技术大体可分为三个发展阶段:第一阶段是基于数据库查询方式的结构化数据检索,应用于信息发布系统内部的检索功能,通常是通过匹配标题、作者和摘要等字段来实现信息检索。由于受到数
原创力文档

文档评论(0)