智能检索概要设计(初)-2.docVIP

  • 5
  • 0
  • 约1.36千字
  • 约 6页
  • 2017-03-25 发布于河南
  • 举报
智能检索概要设计(初)-2

功能需求 实现对应急平台数据库及文件系统的全文检索,为业务系统查询、检索信息、资料提供底层的技术支持; 实现应急办对互联网(国内外主要新闻媒体、应急相关机构)相关网络信息(包括突发公共事件信息)的监测、获取、及整理。 总体设计 系统构成 根据业务需求,整个智能检索系统由两大部分组成,分别实现不同的功能: 全文检索系统 网络信息雷达 系统架构 全文检索系统: 实现对系统内存储的数据库系统、文件系统等应急数据资源的全文检索功能。 1、技术路线: 基于先进的全文检索开源软件包Lucene, 由Java进行扩展实现。 Lucene源码中共包括7个子包,每个包完成特定的功能: ? Lucene包结构功能表 包名 功能 org.apache.lucene.analysis 语言分析器,主要用于的切词,支持中文主要是扩展此类 org.apache.lucene.document 索引存储时的文档结构管理,类似于关系型数据库的表结构 org.apache.lucene.index 索引管理,包括索引建立、删除等 org.apache.lucene.queryParser 查询分析器,实现查询关键词间的运算,如与、或、非等 org.apache.lucene.search 检索管理,根据查询条件,检索得到结果 org.apache.lucene.store 数据存储管理,主要包括一些底层的I/O操作 org.apache.lucene.util 一些公用类 2、模块构成 整个全文检索功能的实现,主要基于Lucene的软件包扩展实现;重点包括系统数据监控、中文分词的扩展实现、检索应用接口、文件系统适配器、数据库适配器、管理设置维护、词表管理等构成。 Lucene: 实现核心的全文检索功能; 数据监控:实现对系统存储数据变化的动态监控管理,以便进行实时地建立动态索引。 文件系统适配器:实现将不同类型的文档格式Text、HTML、XML、RTF、MS OFFICE文档 Word/Execl/Powerpoint 和PDF转换成标准的Lucene文件格式,以建立索引。 数据库适配器:实现将不同类型数据系统的数据转化成标准的Lucene文件格式,以建立索引。 管理配置: 实现相关系统的参数配置功能。 词表管理:实现词表(中文分词表、、 信息采集模块(网络爬虫):对所设置的网站URL信息进行解析,并实现对感兴趣相关网页的下载; 信息过滤模块:实现对网页的过滤功能,自动去处广告、栏目等无用垃圾等信息。 配置管理: 实现对网络信息雷达的相关参数的设置,如监控网站、自动监控时间、线程数量等等; 主题设置: 实现对要监控信息主题的设置,,及关键特征词的维护管理。 Web信息管理:实现对所下载内容的浏览、展示; 消重: 根据网页的内容进行是否重复网页的判断。 分类:实现根据文本的内容进行自动分类处理; 建议外购。 2、技术要求 采用Java语言开发 采用多线程技术 数据可按照文件系统及数据库模式进行存储。 3、技术实现 采用开源软件Heritrix实现,Heritrix是一个爬虫框架,可扩展的,基于整个Web的,归档网络爬虫工程 接口设计要求 提供标准的Java API接口。

文档评论(0)

1亿VIP精品文档

相关文档