- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Lucene非结构化文档全文检索系统研究与实现
基于Lucene非结构化文档全文检索系统研究与实现
摘要摘要:如何在海量的非结构文档内容中准确、快捷找到自己所需要的信息,是信息检索技术的研究重点。全文检索是现代信息检索技术一个非常重要的分支,是解决非结构化数据检索需求的重要技术手段。以已发布的各类通信业务管理规范的全文检索需求为切入点,设计并实现了适用于国家级气象信息化业务管理的非结构化文档全文检索系统。该系统基于Java技术,并采用Lucene技术框架,对业务规范信息进行了分析和重新数据组织,确保良好的检索时效与准确率。系统应用后能快速应对业务变化,在已有的大量的规定、规范、标准和公文函件中迅速、准确、全面地查找有关资料信息,帮助用户准确把握气象信息化发展脉络。
关键词关键词:非结构化文档;全文检索;Lucene;索引文件
中图分类号:TP319文献标识码:A文章编号文章编号2013)0010010003
基金项目:中国气象局气象关键技术集成与应用项目(2012)
作者简介:刘东君 (1982-),女,硕士,中国气象局预报与网络司工程师,研究方向为气象信息化。
0引言
大数据时代的到来使得可利用的数据和信息量越来越多。面对超负荷的海量数据,信息检索技术帮助人们在海量数据中准确、快捷地定位和找到所需要的信息。如何为不同领域的用户提供专业的、量身定做的信息服务成为目前信息检索领域普遍关注的一个热点。
近10年来,我国的气象信息化建设取得了长足的发展。气象信息系统已经成为现代气象业务体系的重要基础支撑,是现代气象业务的中枢和纽带,是国家信息基础设施的重要组成部分。气象信息系统整体能力不断提高,目前已经进入了“十二五”发展的快车道。推动气象信息化建设,在管理工作中快速应对业务系统的发展,亟需在已经颁布和归档的大量的业务规定、规范、标准和公文函件中迅速、准确、全面地查找资料信息,为气象信息化发展与决策提供信息支撑。
为进一步提升气象信息管理软实力,促进气象信息管理向标准化、数字化方向转变,本文设计并实现了国家级气象信息化业务管理检索系统。该系统将分散的原始规定、规范、标准和公文函件进行有序整编,按照信息覆盖的内容进行分类和合理组织,为国家级和省级气象信息化管理部门提供快捷、有效的业务文档管理与检索服务。
由于该系统应用了目前较为先进的信息检索与管理技术,具有良好的扩展性,能够实现部门内各类办公文档的集中检索与管理,从而对未来提升整个部门的文档管理和使用效率具有重大意义。
1系统分析与设计
1.1需求分析
建设国家级气象信息化业务管理检索系统是为了提高对各类气象信息化业务规定、规范、标准和公文函件内容的全文检索时效性、便捷性和美观性,并使用户具有良好的用户体验,其基本原理便是非结构化数据全文检索。主要需求归纳如下:
(1)对近10年的我国气象信息化规定、规范、标准和公文函件等文档进行重新组织和管理,合理分组,从逻辑上对文档内容进行分类。
(2)检索反馈迅速,满足时效要求;检索结果准确、全面,没有重复,尽量避免遗漏。重点是实现非结构化数据全文检索,能够准确定位Word、Excel、PDF等常用格式的文档信息。
(3)快速响应业务现状的变化,数据库和检索结果即时更新。
(4)系统具备良好的可扩展性和易用性。
1.2系统设计
国家级气象信息化业务管理检索系统采用分层设计的思想,划分为4个层次的架构:
(1) 数据访问层。在数据访问层的构建上,系统设计采用统一的数据访问接口来实现各类文档数据的统一访问功能,例如数据库的连接管理,数据查询以及数据库事务管理等功能。
(2) 数据实体层。考虑到气象信息业务的复杂性,系统设计以元数据驱动为开发模型,在元数据的基础上进行统一的设计。数据实体层对文档数据和相应的元数据进行统一存储与管理,并能提供高效的组合查询与检索。
(3) 业务逻辑层。业务逻辑层在整个体系架构中最为关键,具有承上启下的作用,系统设计根据用户的请求生成数据库操作语句,并把结果返回给前段界面显示。
(4) 数据表现层。数据表现层的设计功能主要是对实体数据进行展示,并实现美观易用的展示查询、元数据录入等用户界面。数据表现层是与用户的交互接口,直接影响到系统的用户体验。
1.3工作流程
对于非结构化文档(Word等格式),系统将自动从文档中提取信息,经用户修改、确认后,自动生成该文档的元数据。对于纸质文档、扫描件等无法自动提取信息的文档,用户需录入相关信息,手动生成该文档的元数据,然后系统将通过统一接口来处理元数据,将元数据和原始文档一并保存到数据组织与管理系统。同时根据中文词典库和相关分词算法,对元数据内容进行分词,为
文档评论(0)