基于Lucene的电子文件全文检索系统研究.pdfVIP

基于Lucene的电子文件全文检索系统研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Lucene的电子文件全文检索系统研究.pdf

数 字 兰 口 中原工学院电子档案技术研究所 夏敏捷 李 娟 摘 要 本文阐述电子文件全文检索的背景及意义,接着分析应用Lucene建立全文检索系统具备的优势,最后应用Lucene建 立电子文件全文检索系统。 关键词 电子文件 Lucene 全文检索 中图分类号 G271 文献标识码 A 近年来,随着计算机应用和互联网的普及 ,整个社会正快速向 的内容即电子文件的内容通过词法解析,将其内容经切分词后进行 信息化前进。伴随着办公 自动化的普及和电子政务的发展,信息技 索引入库。Lucene采用的是倒排索引结构,就是在索引时通过词法 术从来没有像今天这样贴近我们的生活,已经深刻地影响了我们的 器解析电子文件 ,获取电子文件中的每一个词,索引过程就是存储 工作模式,随之而来的是Word、CAD、PDF等电子文件的爆炸式增 每一个词在所有的电子文件中出现的位置和次数,这个过程类似于 长。档案资料的生成与管理方式随之也发生了较大的变化,已由传 建立字典中的检索字表。二是检索索引库 ,即根据用户输入的查询 统的纯手工操作逐渐过渡到计算机操作,由纸质媒介方式逐步走向 条件从索引库中找出符合用户要求的文档,并且可以根据文档的权 无纸化电子媒介方式。无论是政府部门还是企事业单位,都逐渐进 重按一定顺序进行排序返回给用户。为了减小索引文件的大小, 入了电子文件管理阶段,并形成了大量的电子文件。但由于电子文 Lucene对索引还使用了压缩技术。在这种索引结构下,索引文档通 件的来源广 、规范性差、数据量大等特点,也给电子文件的检索和管 常非常小,因而,整个过程的时间是毫秒级的。 理带来了一定的难度。随着单位部门的电子文件资源的快速增长, Lucene支持B/S方式对所有内容进行全文检索,包括对正文、 每个政府部门都产生大量的电子公文,如何在这些电子文件中快速 附件和批阅文件的所有内容进行全文检索。全文检索能够对字、词 、 查找到某一方面的那些公文,成为人们关注的一个重要问题。而全 词组、数字、数值进行检索,不需设定关键词。为方便用户检索 , 文检索系统是解决这一问题的主要技术。 Lucene支持以下检索方式:①简单检索。点击相关信息常用项(公 一 、 建立电子文件全文检索的必要性 文标题、主题词等),得到相应的数据。②高级检索。用户可以任意组 1.电子文件数据因其格式不一 ,长度不定 ,非结构化特征非常 合查询条件进行检索。 明显 ,用传统的关系数据库进行存储,随着数据量的增大,检索速 Lucene支持各种格式文件的文本抽取。对电子文件中Text文 度难以忍受 ,尤其在全文检索方面根本达不到用户的要求,而且数 本文件、Word文件 、PDF文件 、Word、Excel等格式的文件进行针对 据也容易不一致。传统关系数据库在全文检索上存在不足。基于关 性地文本抽取,并转化成为索引的固定格式 ,方便全文检索系统对 系数据库、使用结构化查询语言SQL,效率低,是不可取的。例如:非 内容进行索引和存储,从而支持各种格式文件的全文检索。 精确查询时使用的 “like%查询关键字%”,对数据库进行查询是对 三、应用Lucene建立电子文件全文检索系统的架构 所有记录遍历,并对字段进行匹配,这种方法在信息量小的情况下, 为了保证用户使用的方便 ,本研究用mysql作为数据库服务 检索速度比较快,但是在数据库庞大或者某个字段数据量庞大的时 器,tomc~7作为web服务器,建立了基于Lucene的B/S模式的电 候,这种遍历的效率就存在严重问题了。Lucene采用的是倒排索引 子文件管理及全文检索系统。B/S模式是将系统的功能逻辑集中在 结构可以较好地解决数据库庞大时的全文检索。 服务器端,而用户在客户机上通过直观、易于使用的浏览器来从 2.信息检索的彻底性、准确性差。传统检索系统对电子文件所 Web服务器上获取信息。采用BS/有成本低,易于部署等特点,浏览 提供的检索条件仅限于若干可检字段 ,查询的条件包括文件名、 器的使用者无需培训即可使用系统。Lucene在建立文档索引时需 文件字号、文件时间等等 ,这种查询只能实现模糊检索,并且查全 要提取电

文档评论(0)

月光般思恋 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档