基于双层PDF和Lucene技术全文检索研究与实现.docVIP

基于双层PDF和Lucene技术全文检索研究与实现.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于双层PDF和Lucene技术全文检索研究与实现

基于双层PDF和Lucene技术全文检索研究与实现   〔摘要〕通过建设双层PDF全文数据库、创建索引和全文检索等实现过程来阐述相关技术的研究和运用。以建设全文数据库为基础,研究结构化信息与非结构化数据的合并管理,对目录数据和全文数据的同步索引,基于Lucene技术,实现档案管理系统的一站式智能化档案全文检索,提升档案查全率。   〔关键词〕双层PDF;全文检索;档案管理;Lucene   〔中图分类号〕TP391〔文献标识码〕B〔文章编号〕1008-0821(2014)06-0075-04   由于档案的凭证性、惟一性和不可替代性,导致用户和档案行业更注重查全率。传统的档案管理手段,由于对标引和著录标准的理解、执行和操作、人员责任心等方面的差异,导致著录信息和检索效果不尽人意。基于Lucene技术,依托双层PDF文档,对结构化和非结构化信息合并管理,在档案管理系统中实现一站式全文检索,具有很重要的现实意义。   1档案检索研究现状   传统档案检索,主要是对档案信息著录和标引进行研究,编制检索目录和目录检索系统,常见的检索工具有主题、分类、字序、文号等多种方式,检索系统有简单检索、复合逻辑组配表达式检索等。著录和标引质量提高,检索工具完备均能提高查全率,但存在缺陷,且效率较低。要实现高查全率,必须研究在档案文档中实现内容检索。   Lucene是一个非常优秀的全文本型检索框架[1],在文本型的全文检索方面得到广泛的支持和运用;然而,对纸质档案进行数字化扫描加工,最好的存储方式仍为图片格式的非文本型文档,要实现全文检索并非易事;基于图像的检索技术的研究也还不成熟,效果并不理想。   2全文检索思想与技术   档案资源数据有多种类型:一是结构化数据,有固定格式和长度,如数据库或者元数据,数据表格等;二是非结构化数据,特点是不定长和无固定格式,如Word、PDF、JPG等文档;三是半结构化数据,如XML、HTML等,这类数据比较灵活,可根据需要按结构化处理,也可按非结构化处理,在使用Web Service方式的系统集成对接时,协议中采用的数据传输格式大多为XML。对于结构化的语句,采用SQL语句很容易实现检索。非结构化的数据,通常称作全文数据,检索方式有两种[2]:一种是顺序扫描法,对每一个文档都从头至尾进行扫描,搜索出包含检索词的文档,如Windows系统中的查找功能,但这种方式,搜索效率低,速度慢;另一种方式便是我们要重点讨论的全文检索。   2.1全文检索思想   由于结构化的数据格式是有规律的,用算法容易实现很高的检索效率。全文检索的基本思想便是:把全文数据中信息提取出来,重新进行组织成索引,使其结构化规律化,再按一定的算法对其进行检索。从过程上来看,可简单地分为索引和检索两个过程,但在实际处理过程中,包含的模块构成有:前端查询平台、中文分词、解析引擎、后台管理等。   2.2双层PDF技术   非结构化的数据,又分为文本型和非文本型。对于文本型或者超文本型的文档,全文检索的研究应用已经比较广泛和成熟。而非文本型的文档无法直接实现全文检索,双层PDF文档技术便是解决这一问题的最佳方式之一。   双层PDF文件是一种包含Text层和Image层的多层结构PDF文件,两层内容位置上相对应,Image层是原始图像,保留了原始档案的效果;Text层是Image层的OCR识别结果,支持选择、检索和复制等功能。通过程序控制可实现两个图层的任意显示和切换,可实现检索词的精确定位。双层PDF文档可以是图像型通过档案数字加扫描加工而成;也可以是文本型,通过文本文件如WORD转换。   2.3全文检索引擎Lucene   Lucene是目前最为流行的基于Java开源全文检索工具包[3]。它并不是一个完整的搜索程序[4],不能直接嵌入系统中使用;而是一个类库,一种思想和架构。Lucene提供简单的工具包,方便软件开发人员在应用系统中实现全文检索功能。Lucene具备五大优点[5]:索引文件格式独立于应用平台;可分块索引,为增量文件建立小索引,通过与原索引合并,提升效率;面向对象的架构,便于扩充;独立的文本分析接口,与语言和文件格式无关;具备强大的查询引擎,包括布尔逻辑、分组查询、模糊查询等,开发人员无需再编写代码。   Lucene的源码由7个模块(包)组成:分词模块、索引管理、检索管理、数据存储管理、查询分析器及公用类库。为了对文档进行索引,Lucene提供了5个基础的类,Document、Field、IndexWriter、Analyzer、Directory。全文检索系统功能强大,实现起来也比较复杂,但从实现过程来看,主要分为索引和检索两大功能。   3全文检索的实现   主要运用lucene技术,基于PDF文档,对中文分词、解析引擎、

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档