基于lucene的web工程毕业论文.pptVIP

  • 17
  • 0
  • 约4.76千字
  • 约 29页
  • 2016-09-18 发布于河南
  • 举报
基于lucene的搜索引擎 2007/07/01 引言 本文用lucene和Heritrix构建了一个Web 搜索应用程序 Lucene 是基于 Java 的全文信息检索包,它目前是 Apache Jakarta 家族下面的一个开源项目。 Lucene很强大,但是,无论多么强大的搜索引擎工具,在其后台,都需要一样东西来支援它,那就是网络爬虫Spider。网络爬虫,又被称为蜘蛛Spider,或是网络机器人、BOT等,这些都无关紧要,最重要的是要认识到,由于爬虫的存在,才使得搜索引擎有了丰富的资源。 Heritrix是一个纯由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。它来自于。Heritrix最出色之处在于它的可扩展性,开发者可以扩展它的各个组件,来实现自己的抓取逻辑。 系统架构 开发环境 我们开发一个 Web 应用程序利用 Lucene 来检索存放在文件服务器上的 HTML 文档。在开始之前,需要准备如下环境: Heritrix 1.10.0 Eclipse 集成开发环境 (Eclipse 3.3+WTP 2.0) Tomcat 6.0 Lucene Library (lucene 2.0+luceneHtmlPaser) JDK 1.6 这个工程使用 Eclipse 进行 Web

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档