智能检索概要设计(初)-2.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
功能需求 实现对应急平台数据库及文件系统的全文检索,为业务系统查询、检索信息、资料提供底层的技术支持; 实现应急办对互联网(国内外主要新闻媒体、应急相关机构)相关网络信息(包括突发公共事件信息)的监测、获取、及整理。 总体设计 系统构成 根据业务需求,整个智能检索系统由两大部分组成,分别实现不同的功能: 全文检索系统 网络信息雷达 系统架构 全文检索系统: 实现对系统内存储的数据库系统、文件系统等应急数据资源的全文检索功能。 1、技术路线: 基于先进的全文检索开源软件包Lucene, 由Java进行扩展实现。 Lucene源码中共包括7个子包,每个包完成特定的功能: ? Lucene包结构功能表 包名 功能 org.apache.lucene.analysis 语言分析器,主要用于的切词,支持中文主要是扩展此类 org.apache.lucene.document 索引存储时的文档结构管理,类似于关系型数据库的表结构 org.apache.lucene.index 索引管理,包括索引建立、删除等 org.apache.lucene.queryParser 查询分析器,实现查询关键词间的运算,如与、或、非等 org.apache.lucene.search 检索管理,根据查询条件,检索得到结果 org.apache.lucene.store 数据存储管理,主要包括一些底层的I/O操作 org.apache.lucene.util 一些公用类 2、模块构成 整个全文检索功能的实现,主要基于Lucene的软件包扩展实现;重点包括系统数据监控、中文分词的扩展实现、检索应用接口、文件系统适配器、数据库适配器、管理设置维护、词表管理等构成。 Lucene: 实现核心的全文检索功能; 数据监控:实现对系统存储数据变化的动态监控管理,以便进行实时地建立动态索引。 文件系统适配器:实现将不同类型的文档格式Text、HTML、XML、RTF、MS OFFICE文档 (Word/Execl/Powerpoint)和PDF转换成标准的Lucene文件格式,以建立索引。 数据库适配器:实现将不同类型数据系统的数据转化成标准的Lucene文件格式,以建立索引。 管理配置: 实现相关系统的参数配置功能。 词表管理:实现词表(中文分词表、主题词典、同义词典等)维护功能。 检索应用接口:负责各种复杂查询的解释及扩展实现。 中文分词: 实现对中文文档的切分,采用成熟的分词软件实现。 3、接口设计要求 提供标准的Java API接口。 网络信息雷达 实现对设定的目标网站的信息进行实时监控,及时获取最新的相关网页采集到本地,并进行内容分析和过滤、归类等操作。 1、模块构成 信息采集模块(网络爬虫):对所设置的网站URL信息进行解析,并实现对感兴趣相关网页的下载; 信息过滤模块:实现对网页的过滤功能,自动去处广告、栏目等无用垃圾等信息。 配置管理: 实现对网络信息雷达的相关参数的设置,如监控网站、自动监控时间、线程数量等等; 主题设置: 实现对要监控信息主题的设置,,及关键特征词的维护管理。 Web信息管理:实现对所下载内容的浏览、展示; 消重: 根据网页的内容进行是否重复网页的判断。 分类:实现根据文本的内容进行自动分类处理; 建议外购。 2、技术要求 采用Java语言开发 采用多线程技术 数据可按照文件系统及数据库模式进行存储。 3、技术实现 采用开源软件Heritrix实现,Heritrix是一个爬虫框架,是可扩展的,基于整个Web的,归档网络爬虫工程。 接口设计要求 提供标准的Java API接口。

文档评论(0)

xiangxiangxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档