- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
RESEARCHESIN LIBRARYSCIENCE 37
Lucene全文检索的应用
及检索效率测试研究
彭 哲 陈敬文
【摘 要】使用 Lucene设计一个全文检索系统,系统由三大功能模块组成:索引模块、检索模块和存储模块。
第二部分着重分析PDF数据转换,XML文档设计,索引的分词、建立及效率等技术难点,并对 中文分词分析
器、索引文件膨胀率、索引影响因子及检索系统并对检索响应时间进行测试。应关注XML数据库的安全性。
【关键词】Lucence XML 全文检索 效率
Abstract:Usinq fucene designa fulItextretrievafsystem , incIudinq index module,retrievafmodule,and
databasemodule.MainJYarialyzehow totransform PDFtoXML,designing ofXMLdatabase,Chineseword
segmentation,foundingandefficiencyofindexes,thentestsanalyzer,expansivity,factorsofindexesand
respondingtimeofsearching.ThesecurityofXMLdatabaseshouldbepaidattentionto.
Keywords:Lucene XML fulltextretrieval efficiency
Lucene不是一个完整的全文检索应用程序,而是~个高性能的 Java全文检索工具包 ,它可 以方便地嵌入到
各种应用中实现针对应用的全文检索功能。Lucene以其开放源代码的特性、优异的索引结构和 良好的系统架构 ,
得到了越来越广泛的应用。
本文使用Lucene设计并实现了一个全文检索系统,与关系数据库相比,采用XML作为数据存储容器,实现
了单个数据库操作,并在大信息量环境下极大地节省了存储空间,提高了检索的速度。
1 系统分析与设计
本文实现的全文跨库检索系统由三大功能模块组成 :索引模块、检索模块和存储模块 】]。
1.1 索引模块
Lucene最核心的特征就在于它特殊的索引结构可以提高检索效率,这也是我们选择 Lucene的重要原因。
Lucene使用的是倒排文件索引结构,它把每个关键词、关键词在文中出现频率、关键词在文中位置分别作为词典
文件 (TermDictionary)、频率文件 (Frequencies)、位置文件 (Positions)保存。其中词典文件不仅保存每个关
键词,还保留了指向频率文件和位置文件的指针,通过指针可以找到该关键词的频率信息和位置信息。
同时,关键词在索引文件中的排放顺序是按照字符顺序排列的,所以Lucene可以用二元搜索算法快速定位关
键词。
另外,Lucene中使用了Field的概念,用于表达信息所在位置 (如标题中、文章中、urf中),在建立索引时,
该Field信息也记录在词典文件中。由于每个关键词一定属于一个或多个Field,所以每个关键词都有一个Field信
息。
为了减少索引文件的大小,Lucene对索引还使用了压缩技术,首先,对词典文件中的关键词进行了压缩,关
键词压缩为前缀长度,后缀;其次 ,大量用到了对数字的压缩,数字只保存与上一个值的差值。
在维护索引文件时,Lucene与其他 B树结构的索引有所不同,它是在扩展索引的时候不断创建新的索引文
件,然后定期把这些新的小索引文件合并到原先的大索引中,这样避免了大量的1O操作 ,在不影响检索效率的前
本文系国家社科基金重大项 目 “建设创新型国家的信息服务体制与信息保障体系研究”(项 目编号 :o6~ZD031)课题成果之一。.
38 图 书 馆 学 研 究 2009.2
提下,提高了索引的效率。
1.2 检索模块
以JSP页面作为用户检索的界面,对全文各字段进行检索,支持高级查询,对检索结构提供方便的查看方式。
检索的实现流程如图1[。所示 :
图 1 检索流程示意图
检索系统根据建库时定义的可检索项提供多条检索途径,除了可检索如论文题 目、作者、关键词等结构化数
据外,还可检索全文、摘要、作者单位、期
您可能关注的文档
- 5呼啸山庄6与哥特传统.PDF
- 8B10B编码器的设计及实现.PDF
- 20世纪中国哲学传统与21世纪中国哲学发展.doc
- 800万像素手机镜头的设计.PDF
- 1000MW超超临界机组风烟系统APS功能组设计与应用.doc
- APGIII系统在植物园规划中的应用——以茌平植物园规划设计为例.doc
- Auto—CPAP与传统CPAP治疗阻塞性睡眠呼吸暂停综合征的对比研究.PDF
- BUCK型开关变换器最优PID控制器设计.PDF
- CAN总线系统智能节点设计.PDF
- CICC超导体数字模拟设计.PDF
- 2025年安全员A证考试题库检测试卷附答案详解【综合卷】.docx
- 2025年安全员A证考试题库检测试卷附答案详解【精练】.docx
- 2025年安全员A证考试题库检测试卷附答案详解【考试直接用】.docx
- 2025年安全员A证考试题库检测试卷附答案详解【满分必刷】.docx
- 2025年安全员A证考试题库检测试卷附答案详解【模拟题】.docx
- 2025年安全员A证考试题库检测试卷附答案详解【研优卷】.docx
- 敦化市江南镇太平岭村道路工程可行性研究报告.doc
- 2025年安全员A证考试题库检测试卷附答案详解【巩固】.docx
- 2025年安全员A证考试题库检测试卷附答案详解【实用】.docx
- 教苏版四年级语文下册全册说课稿--大学毕设论文.doc
原创力文档


文档评论(0)