- 5
- 0
- 约1.36千字
- 约 6页
- 2017-03-25 发布于河南
- 举报
智能检索概要设计(初)-2
功能需求
实现对应急平台数据库及文件系统的全文检索,为业务系统查询、检索信息、资料提供底层的技术支持;
实现应急办对互联网(国内外主要新闻媒体、应急相关机构)相关网络信息(包括突发公共事件信息)的监测、获取、及整理。
总体设计
系统构成 根据业务需求,整个智能检索系统由两大部分组成,分别实现不同的功能:
全文检索系统
网络信息雷达
系统架构
全文检索系统:
实现对系统内存储的数据库系统、文件系统等应急数据资源的全文检索功能。
1、技术路线:
基于先进的全文检索开源软件包Lucene, 由Java进行扩展实现。
Lucene源码中共包括7个子包,每个包完成特定的功能:
? Lucene包结构功能表 包名 功能 org.apache.lucene.analysis 语言分析器,主要用于的切词,支持中文主要是扩展此类 org.apache.lucene.document 索引存储时的文档结构管理,类似于关系型数据库的表结构 org.apache.lucene.index 索引管理,包括索引建立、删除等 org.apache.lucene.queryParser 查询分析器,实现查询关键词间的运算,如与、或、非等 org.apache.lucene.search 检索管理,根据查询条件,检索得到结果 org.apache.lucene.store 数据存储管理,主要包括一些底层的I/O操作 org.apache.lucene.util 一些公用类
2、模块构成
整个全文检索功能的实现,主要基于Lucene的软件包扩展实现;重点包括系统数据监控、中文分词的扩展实现、检索应用接口、文件系统适配器、数据库适配器、管理设置维护、词表管理等构成。
Lucene: 实现核心的全文检索功能;
数据监控:实现对系统存储数据变化的动态监控管理,以便进行实时地建立动态索引。
文件系统适配器:实现将不同类型的文档格式Text、HTML、XML、RTF、MS OFFICE文档 Word/Execl/Powerpoint 和PDF转换成标准的Lucene文件格式,以建立索引。
数据库适配器:实现将不同类型数据系统的数据转化成标准的Lucene文件格式,以建立索引。
管理配置: 实现相关系统的参数配置功能。
词表管理:实现词表(中文分词表、、
信息采集模块(网络爬虫):对所设置的网站URL信息进行解析,并实现对感兴趣相关网页的下载;
信息过滤模块:实现对网页的过滤功能,自动去处广告、栏目等无用垃圾等信息。
配置管理: 实现对网络信息雷达的相关参数的设置,如监控网站、自动监控时间、线程数量等等;
主题设置: 实现对要监控信息主题的设置,,及关键特征词的维护管理。
Web信息管理:实现对所下载内容的浏览、展示;
消重: 根据网页的内容进行是否重复网页的判断。
分类:实现根据文本的内容进行自动分类处理; 建议外购。
2、技术要求
采用Java语言开发
采用多线程技术
数据可按照文件系统及数据库模式进行存储。
3、技术实现 采用开源软件Heritrix实现,Heritrix是一个爬虫框架,可扩展的,基于整个Web的,归档网络爬虫工程
接口设计要求
提供标准的Java API接口。
您可能关注的文档
最近下载
- 2025年会计职称考试《初级会计实务》内部控制与审计基础理论与模拟试题及答案.docx VIP
- 2022年欧洲新生儿呼吸窘迫综合征管理指南更新要点解读.pptx VIP
- 四川省成都市重点中学高一上学期期末物理试卷.docx VIP
- SY∕T 7018-2014 控压钻井系统.pdf VIP
- 四渡赤水战役中的红军情报工作.doc VIP
- 湘教版(2024)八年级上册地理第二章第二节《中国的气候》教学课件.ppt
- 2024-2025学年江苏省天一中学高一上学期期末数学试题及答案.pdf VIP
- 课题申报书:少先队活动与思政教育一体化建设研究.docx VIP
- 2025年信息系统安全专家单点登录系统中的权限提升漏洞分析专题试卷及解析.pdf VIP
- 2025年信息系统安全专家CA人员管理与安全意识专题试卷及解析.pdf VIP
原创力文档

文档评论(0)