基于双层PDF和Lucene技术全文检索研究与实现.docVIP

下载本文档

32
0
约6.97千字
约 14页
2018-07-06 发布于福建
举报
版权申诉

基于双层PDF和Lucene技术全文检索研究与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于双层PDF和Lucene技术全文检索研究与实现

基于双层PDF和Lucene技术全文检索研究与实现　　〔摘要〕通过建设双层PDF全文数据库、创建索引和全文检索等实现过程来阐述相关技术的研究和运用。以建设全文数据库为基础，研究结构化信息与非结构化数据的合并管理，对目录数据和全文数据的同步索引，基于Lucene技术，实现档案管理系统的一站式智能化档案全文检索，提升档案查全率。　　〔关键词〕双层PDF；全文检索；档案管理；Lucene 　　〔中图分类号〕TP391〔文献标识码〕B〔文章编号〕1008-0821（2014）06-0075-04 　　由于档案的凭证性、惟一性和不可替代性，导致用户和档案行业更注重查全率。传统的档案管理手段，由于对标引和著录标准的理解、执行和操作、人员责任心等方面的差异，导致著录信息和检索效果不尽人意。基于Lucene技术，依托双层PDF文档，对结构化和非结构化信息合并管理，在档案管理系统中实现一站式全文检索，具有很重要的现实意义。　　1档案检索研究现状　　传统档案检索，主要是对档案信息著录和标引进行研究，编制检索目录和目录检索系统，常见的检索工具有主题、分类、字序、文号等多种方式，检索系统有简单检索、复合逻辑组配表达式检索等。著录和标引质量提高，检索工具完备均能提高查全率，但存在缺陷，且效率较低。要实现高查全率，必须研究在档案文档中实现内容检索。　　Lucene是一个非常优秀的全文本型检索框架[1]，在文本型的全文检索方面得到广泛的支持和运用；然而，对纸质档案进行数字化扫描加工，最好的存储方式仍为图片格式的非文本型文档，要实现全文检索并非易事；基于图像的检索技术的研究也还不成熟，效果并不理想。　　2全文检索思想与技术　　档案资源数据有多种类型：一是结构化数据，有固定格式和长度，如数据库或者元数据，数据表格等；二是非结构化数据，特点是不定长和无固定格式，如Word、PDF、JPG等文档；三是半结构化数据，如XML、HTML等，这类数据比较灵活，可根据需要按结构化处理，也可按非结构化处理，在使用Web Service方式的系统集成对接时，协议中采用的数据传输格式大多为XML。对于结构化的语句，采用SQL语句很容易实现检索。非结构化的数据，通常称作全文数据，检索方式有两种[2]：一种是顺序扫描法，对每一个文档都从头至尾进行扫描，搜索出包含检索词的文档，如Windows系统中的查找功能，但这种方式，搜索效率低，速度慢；另一种方式便是我们要重点讨论的全文检索。　　2.1全文检索思想　　由于结构化的数据格式是有规律的，用算法容易实现很高的检索效率。全文检索的基本思想便是：把全文数据中信息提取出来，重新进行组织成索引，使其结构化规律化，再按一定的算法对其进行检索。从过程上来看，可简单地分为索引和检索两个过程，但在实际处理过程中，包含的模块构成有：前端查询平台、中文分词、解析引擎、后台管理等。　　2.2双层PDF技术　　非结构化的数据，又分为文本型和非文本型。对于文本型或者超文本型的文档，全文检索的研究应用已经比较广泛和成熟。而非文本型的文档无法直接实现全文检索，双层PDF文档技术便是解决这一问题的最佳方式之一。　　双层PDF文件是一种包含Text层和Image层的多层结构PDF文件，两层内容位置上相对应，Image层是原始图像，保留了原始档案的效果；Text层是Image层的OCR识别结果，支持选择、检索和复制等功能。通过程序控制可实现两个图层的任意显示和切换，可实现检索词的精确定位。双层PDF文档可以是图像型通过档案数字加扫描加工而成；也可以是文本型，通过文本文件如WORD转换。　　2.3全文检索引擎Lucene 　　Lucene是目前最为流行的基于Java开源全文检索工具包[3]。它并不是一个完整的搜索程序[4]，不能直接嵌入系统中使用；而是一个类库，一种思想和架构。Lucene提供简单的工具包，方便软件开发人员在应用系统中实现全文检索功能。Lucene具备五大优点[5]：索引文件格式独立于应用平台；可分块索引，为增量文件建立小索引，通过与原索引合并，提升效率；面向对象的架构，便于扩充；独立的文本分析接口，与语言和文件格式无关；具备强大的查询引擎，包括布尔逻辑、分组查询、模糊查询等，开发人员无需再编写代码。　　Lucene的源码由7个模块（包）组成：分词模块、索引管理、检索管理、数据存储管理、查询分析器及公用类库。为了对文档进行索引，Lucene提供了5个基础的类，Document、Field、IndexWriter、Analyzer、Directory。全文检索系统功能强大，实现起来也比较复杂，但从实现过程来看，主要分为索引和检索两大功能。　　3全文检索的实现　　主要运用lucene技术，基于PDF文档，对中文分词、解析引擎、