- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
功能需求
实现对应急平台数据库及文件系统的全文检索,为业务系统查询、检索信息、资料提供底层的技术支持;
实现应急办对互联网(国内外主要新闻媒体、应急相关机构)相关网络信息(包括突发公共事件信息)的监测、获取、及整理。
总体设计
系统构成
根据业务需求,整个智能检索系统由两大部分组成,分别实现不同的功能:
全文检索系统
网络信息雷达
系统架构
全文检索系统:
实现对系统内存储的数据库系统、文件系统等应急数据资源的全文检索功能。
1、技术路线:
基于先进的全文检索开源软件包Lucene, 由Java进行扩展实现。
Lucene源码中共包括7个子包,每个包完成特定的功能:
? Lucene包结构功能表
包名
功能
org.apache.lucene.analysis
语言分析器,主要用于的切词,支持中文主要是扩展此类
org.apache.lucene.document
索引存储时的文档结构管理,类似于关系型数据库的表结构
org.apache.lucene.index
索引管理,包括索引建立、删除等
org.apache.lucene.queryParser
查询分析器,实现查询关键词间的运算,如与、或、非等
org.apache.lucene.search
检索管理,根据查询条件,检索得到结果
org.apache.lucene.store
数据存储管理,主要包括一些底层的I/O操作
org.apache.lucene.util
一些公用类
2、模块构成
整个全文检索功能的实现,主要基于Lucene的软件包扩展实现;重点包括系统数据监控、中文分词的扩展实现、检索应用接口、文件系统适配器、数据库适配器、管理设置维护、词表管理等构成。
Lucene: 实现核心的全文检索功能;
数据监控:实现对系统存储数据变化的动态监控管理,以便进行实时地建立动态索引。
文件系统适配器:实现将不同类型的文档格式Text、HTML、XML、RTF、MS OFFICE文档 (Word/Execl/Powerpoint)和PDF转换成标准的Lucene文件格式,以建立索引。
数据库适配器:实现将不同类型数据系统的数据转化成标准的Lucene文件格式,以建立索引。
管理配置: 实现相关系统的参数配置功能。
词表管理:实现词表(中文分词表、主题词典、同义词典等)维护功能。
检索应用接口:负责各种复杂查询的解释及扩展实现。
中文分词: 实现对中文文档的切分,采用成熟的分词软件实现。
3、接口设计要求
提供标准的Java API接口。
网络信息雷达
实现对设定的目标网站的信息进行实时监控,及时获取最新的相关网页采集到本地,并进行内容分析和过滤、归类等操作。
1、模块构成
信息采集模块(网络爬虫):对所设置的网站URL信息进行解析,并实现对感兴趣相关网页的下载;
信息过滤模块:实现对网页的过滤功能,自动去处广告、栏目等无用垃圾等信息。
配置管理: 实现对网络信息雷达的相关参数的设置,如监控网站、自动监控时间、线程数量等等;
主题设置: 实现对要监控信息主题的设置,,及关键特征词的维护管理。
Web信息管理:实现对所下载内容的浏览、展示;
消重: 根据网页的内容进行是否重复网页的判断。
分类:实现根据文本的内容进行自动分类处理; 建议外购。
2、技术要求
采用Java语言开发
采用多线程技术
数据可按照文件系统及数据库模式进行存储。
3、技术实现
采用开源软件Heritrix实现,Heritrix是一个爬虫框架,是可扩展的,基于整个Web的,归档网络爬虫工程。
接口设计要求
提供标准的Java API接口。
您可能关注的文档
最近下载
- 2025年最新劳动合同法全文.docx VIP
- 养老服务机构服务质量星级评定检查细则一.doc VIP
- 中国心血管健康与疾病报告.pdf VIP
- 《中国天然气发展报告(2016)》.docx VIP
- (高清版)B-T 24353-2022 风险管理 指南.pdf VIP
- GB∕T 24353-2022 《风险管理 指南》解读和应用指导材料(雷泽佳编写2024B0).pdf VIP
- 2025年版检验检测机构资质认定评审准则考试试题及答案.pdf VIP
- 前交通动脉瘤破裂伴蛛网膜下腔出血个案护理.pptx VIP
- 临床颅内动脉瘤破裂伴蛛网膜下腔出血的个案护理.pptx VIP
- 检验检测机构资质认定评审准则试题及答案.pdf VIP
文档评论(0)