- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Lucene的电子文件全文检索系统研究.pdf
数 字 兰
口 中原工学院电子档案技术研究所 夏敏捷 李 娟
摘 要 本文阐述电子文件全文检索的背景及意义,接着分析应用Lucene建立全文检索系统具备的优势,最后应用Lucene建
立电子文件全文检索系统。
关键词 电子文件 Lucene 全文检索 中图分类号 G271 文献标识码 A
近年来,随着计算机应用和互联网的普及 ,整个社会正快速向 的内容即电子文件的内容通过词法解析,将其内容经切分词后进行
信息化前进。伴随着办公 自动化的普及和电子政务的发展,信息技 索引入库。Lucene采用的是倒排索引结构,就是在索引时通过词法
术从来没有像今天这样贴近我们的生活,已经深刻地影响了我们的 器解析电子文件 ,获取电子文件中的每一个词,索引过程就是存储
工作模式,随之而来的是Word、CAD、PDF等电子文件的爆炸式增 每一个词在所有的电子文件中出现的位置和次数,这个过程类似于
长。档案资料的生成与管理方式随之也发生了较大的变化,已由传 建立字典中的检索字表。二是检索索引库 ,即根据用户输入的查询
统的纯手工操作逐渐过渡到计算机操作,由纸质媒介方式逐步走向 条件从索引库中找出符合用户要求的文档,并且可以根据文档的权
无纸化电子媒介方式。无论是政府部门还是企事业单位,都逐渐进 重按一定顺序进行排序返回给用户。为了减小索引文件的大小,
入了电子文件管理阶段,并形成了大量的电子文件。但由于电子文 Lucene对索引还使用了压缩技术。在这种索引结构下,索引文档通
件的来源广 、规范性差、数据量大等特点,也给电子文件的检索和管 常非常小,因而,整个过程的时间是毫秒级的。
理带来了一定的难度。随着单位部门的电子文件资源的快速增长, Lucene支持B/S方式对所有内容进行全文检索,包括对正文、
每个政府部门都产生大量的电子公文,如何在这些电子文件中快速 附件和批阅文件的所有内容进行全文检索。全文检索能够对字、词 、
查找到某一方面的那些公文,成为人们关注的一个重要问题。而全 词组、数字、数值进行检索,不需设定关键词。为方便用户检索 ,
文检索系统是解决这一问题的主要技术。 Lucene支持以下检索方式:①简单检索。点击相关信息常用项(公
一 、 建立电子文件全文检索的必要性 文标题、主题词等),得到相应的数据。②高级检索。用户可以任意组
1.电子文件数据因其格式不一 ,长度不定 ,非结构化特征非常 合查询条件进行检索。
明显 ,用传统的关系数据库进行存储,随着数据量的增大,检索速 Lucene支持各种格式文件的文本抽取。对电子文件中Text文
度难以忍受 ,尤其在全文检索方面根本达不到用户的要求,而且数 本文件、Word文件 、PDF文件 、Word、Excel等格式的文件进行针对
据也容易不一致。传统关系数据库在全文检索上存在不足。基于关 性地文本抽取,并转化成为索引的固定格式 ,方便全文检索系统对
系数据库、使用结构化查询语言SQL,效率低,是不可取的。例如:非 内容进行索引和存储,从而支持各种格式文件的全文检索。
精确查询时使用的 “like%查询关键字%”,对数据库进行查询是对 三、应用Lucene建立电子文件全文检索系统的架构
所有记录遍历,并对字段进行匹配,这种方法在信息量小的情况下, 为了保证用户使用的方便 ,本研究用mysql作为数据库服务
检索速度比较快,但是在数据库庞大或者某个字段数据量庞大的时 器,tomc~7作为web服务器,建立了基于Lucene的B/S模式的电
候,这种遍历的效率就存在严重问题了。Lucene采用的是倒排索引 子文件管理及全文检索系统。B/S模式是将系统的功能逻辑集中在
结构可以较好地解决数据库庞大时的全文检索。 服务器端,而用户在客户机上通过直观、易于使用的浏览器来从
2.信息检索的彻底性、准确性差。传统检索系统对电子文件所 Web服务器上获取信息。采用BS/有成本低,易于部署等特点,浏览
提供的检索条件仅限于若干可检字段 ,查询的条件包括文件名、 器的使用者无需培训即可使用系统。Lucene在建立文档索引时需
文件字号、文件时间等等 ,这种查询只能实现模糊检索,并且查全 要提取电
您可能关注的文档
最近下载
- 高教版 职业道德与法治 第三课增强职业道德意识.pptx VIP
- 09BD2_10KV变配电装置国标 建筑图集 汇编 .docx VIP
- 肝硬化伴食管胃底静脉曲张破裂出血.pptx VIP
- 09SMS202-1 埋地矩形雨水管道及附属构筑物(混凝土模块砌体).docx VIP
- 《新药发现与开发---第一章概论》.ppt VIP
- 17.2019版NOUAP压疮指南解读 解读2019 压力性损伤和治疗临床实践指南.pptx VIP
- 卫星互联网行业报告:低轨卫星.pptx VIP
- 我的小手真干净(教学设计)-2024-2025学年地质版(2024)小学体育与健康一年级全一册.docx VIP
- 在线网课学习课堂《公文写作规范与技巧(陕西师范大学)》单元测试考核答案.docx VIP
- 钛合金Ti6Al4V铣削加工表面完整性与长疲劳寿命关联性探究.docx
文档评论(0)