Lucene全文检索的应用及检索效率测试研究.PDFVIP

Lucene全文检索的应用及检索效率测试研究.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
RESEARCHESIN LIBRARYSCIENCE 37 Lucene全文检索的应用 及检索效率测试研究 彭 哲 陈敬文 【摘 要】使用 Lucene设计一个全文检索系统,系统由三大功能模块组成:索引模块、检索模块和存储模块。 第二部分着重分析PDF数据转换,XML文档设计,索引的分词、建立及效率等技术难点,并对 中文分词分析 器、索引文件膨胀率、索引影响因子及检索系统并对检索响应时间进行测试。应关注XML数据库的安全性。 【关键词】Lucence XML 全文检索 效率 Abstract:Usinq fucene designa fulItextretrievafsystem , incIudinq index module,retrievafmodule,and databasemodule.MainJYarialyzehow totransform PDFtoXML,designing ofXMLdatabase,Chineseword segmentation,foundingandefficiencyofindexes,thentestsanalyzer,expansivity,factorsofindexesand respondingtimeofsearching.ThesecurityofXMLdatabaseshouldbepaidattentionto. Keywords:Lucene XML fulltextretrieval efficiency Lucene不是一个完整的全文检索应用程序,而是~个高性能的 Java全文检索工具包 ,它可 以方便地嵌入到 各种应用中实现针对应用的全文检索功能。Lucene以其开放源代码的特性、优异的索引结构和 良好的系统架构 , 得到了越来越广泛的应用。 本文使用Lucene设计并实现了一个全文检索系统,与关系数据库相比,采用XML作为数据存储容器,实现 了单个数据库操作,并在大信息量环境下极大地节省了存储空间,提高了检索的速度。 1 系统分析与设计 本文实现的全文跨库检索系统由三大功能模块组成 :索引模块、检索模块和存储模块 】]。 1.1 索引模块 Lucene最核心的特征就在于它特殊的索引结构可以提高检索效率,这也是我们选择 Lucene的重要原因。 Lucene使用的是倒排文件索引结构,它把每个关键词、关键词在文中出现频率、关键词在文中位置分别作为词典 文件 (TermDictionary)、频率文件 (Frequencies)、位置文件 (Positions)保存。其中词典文件不仅保存每个关 键词,还保留了指向频率文件和位置文件的指针,通过指针可以找到该关键词的频率信息和位置信息。 同时,关键词在索引文件中的排放顺序是按照字符顺序排列的,所以Lucene可以用二元搜索算法快速定位关 键词。 另外,Lucene中使用了Field的概念,用于表达信息所在位置 (如标题中、文章中、urf中),在建立索引时, 该Field信息也记录在词典文件中。由于每个关键词一定属于一个或多个Field,所以每个关键词都有一个Field信 息。 为了减少索引文件的大小,Lucene对索引还使用了压缩技术,首先,对词典文件中的关键词进行了压缩,关 键词压缩为前缀长度,后缀;其次 ,大量用到了对数字的压缩,数字只保存与上一个值的差值。 在维护索引文件时,Lucene与其他 B树结构的索引有所不同,它是在扩展索引的时候不断创建新的索引文 件,然后定期把这些新的小索引文件合并到原先的大索引中,这样避免了大量的1O操作 ,在不影响检索效率的前 本文系国家社科基金重大项 目 “建设创新型国家的信息服务体制与信息保障体系研究”(项 目编号 :o6~ZD031)课题成果之一。. 38 图 书 馆 学 研 究 2009.2 提下,提高了索引的效率。 1.2 检索模块 以JSP页面作为用户检索的界面,对全文各字段进行检索,支持高级查询,对检索结构提供方便的查看方式。 检索的实现流程如图1[。所示 : 图 1 检索流程示意图 检索系统根据建库时定义的可检索项提供多条检索途径,除了可检索如论文题 目、作者、关键词等结构化数 据外,还可检索全文、摘要、作者单位、期

文档评论(0)

xiaowei110 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档