基于Lucene的搜索引擎研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Lucene的搜索引擎研究.pdf

第20卷第4期 河南工程学院学报(自然科学版) V01.20.No.4 2008年12月 JOURNAL0FHENANINSTnUTE0FENGINEERING Dec.2008 基于Lucene的搜索引擎研究 詹自熬1,陶 斌2 (1.河南工程学院电气信息工程系,河南郑州451191; 2.河南工程学院计算机科学与工程系,河南郑州451191) 摘要:Lucene是一个纯Java实现的高性能、可扩展的全文信息检索工具库,可以很方便地把它融入到应用程序中 来增加索引和搜索功能.分析了Luc即e的索引文件结构和搜索排序算法,探讨了Lucene中计算文档与查 询项相关度的向量空间模型(VSM).最后,通过实验验证了索引过程的建立以及如何提高索引性能. 关键词:Lucene;向量空间模型;相关度;信息检索 中图分类号:m91.3 文献标识码:A 文章编号:1674—330X(2008)04—0040—04 Lucene并不是一个文件搜索程序、web爬虫或并不是回答“这个文档中包含哪些单词”这个问题, 者web站点搜索引擎的应用程序,它是一个开源的 而是经过优化以后用来快速回答“哪些文档包含指 Java工具包,不具备一个搜索应用程序的完整特征. 定的单词”这个问题….这种设计思想类似于书籍 它只关注文本的索引和搜索,并且提供了丰富易用 中的索引,可以让你快速地定位需要关注的某个主 且功能强大的API,隐藏了索引和搜索的复杂操作, 题的页码. 用户可以只专注于应用程序自身的业务领域.可以 将Lucene看作应用程序之下的一个接口层,如图1成,每一个段都是完整独立的子索引,可以被搜索, 所示. 类似于数据库中的表;段是一些文档(Document)的 序列,文档类似于数据库表中的一条记录;文档是一 些域(Field)的序列,域类似于数据库表中的列;域 是一些项(Te邢)的序列,类似于数据库表中每一列 囡引倒 包含的值序列;项就是一个字串,存在于不同域中的 同一个字串被认为是不同的项.因此,项实际是用一 对字串表示的,第一个字串是域名,第二个是域中的 字串,如图2所示. 一口引d 图l集成Luce耻的程序结构 the Fig.1Lu∞眦iIltegrati∞ofpmgram啦删du弛 1 L嵋ene索引文件结构、格式及索引过程 Lucene使用了反向索引作为其基本的索引结 构.反向索引是以在文档中抽取的索引项为主体来 图2 Luce眦的索引文件结构 构建数据结构,每个索引项指向一个文档序列,这个 Luceneindex脚estnIctu弛 Fig.2 序列中的文档都包含该索引项.换句话说,反向索引 收稿日期:2008一10一03 作者简介:詹自熬(1979一)。男,河南罗山人,硕士,主要从事计算机算法与辅助设计、计算机网络方面的研究 万方数据 第4期 詹自熬,等:基于Lucene的搜索引擎研究 ·4l· Lucene中的索引文件信息主要由字典文件、频本文首先对向量空问模型进行讨论.为便于:描述问

文档评论(0)

rewfdgd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档