- 17
- 0
- 约4.76千字
- 约 29页
- 2016-09-18 发布于河南
- 举报
基于lucene的搜索引擎 2007/07/01 引言 本文用lucene和Heritrix构建了一个Web 搜索应用程序 Lucene 是基于 Java 的全文信息检索包,它目前是 Apache Jakarta 家族下面的一个开源项目。 Lucene很强大,但是,无论多么强大的搜索引擎工具,在其后台,都需要一样东西来支援它,那就是网络爬虫Spider。网络爬虫,又被称为蜘蛛Spider,或是网络机器人、BOT等,这些都无关紧要,最重要的是要认识到,由于爬虫的存在,才使得搜索引擎有了丰富的资源。 Heritrix是一个纯由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。它来自于。Heritrix最出色之处在于它的可扩展性,开发者可以扩展它的各个组件,来实现自己的抓取逻辑。 系统架构 开发环境 我们开发一个 Web 应用程序利用 Lucene 来检索存放在文件服务器上的 HTML 文档。在开始之前,需要准备如下环境: Heritrix 1.10.0 Eclipse 集成开发环境 (Eclipse 3.3+WTP 2.0) Tomcat 6.0 Lucene Library (lucene 2.0+luceneHtmlPaser) JDK 1.6 这个工程使用 Eclipse 进行 Web
您可能关注的文档
- 基于VHDL交通灯的系统毕业论文.ppt
- 基于51单片机的环境监测系统毕业论文.doc
- 基于C#与Oracle的禽类养殖管理系统的设计与实现毕业论文.doc
- 基于单片机的转速表设计2毕业论文.doc
- 基于Verilog的数模转换器的设计最新毕业论文.doc
- 基于单片机AT89C51控制的热水器毕业设计论文.doc
- 基于MVC的校园图书管理系统设计与开发——系统查询与图书借还管理模块毕业论文.doc
- Java学习笔记 基于马士兵老师视频教学的笔记毕业论文.doc
- 基于Android手机平台的3G航空订票系统毕业论文.doc
- 基于NET的图书馆管理信息系统毕业论文.ppt
- 浙江四校(含精诚联盟)2025-2026学年高二下学期3月阶段检测数学+答案.pdf
- 云南金太阳2025-2026学年高一下学期3月开学考试英语试题+答案.pdf
- 银川市、石嘴山市、吴忠市三市2026年高三年级学科教学质量检测生物+答案.docx
- 云南金太阳2025-2026学年高一下学期3月开学考试历史试题+答案.pdf
- 湖北省云学联盟2025-2026学年高二下学期3月学科素养测评英语试卷(含答案).pdf
- 河南天一大联考2026年高一3月联考语文试题.docx
- 河南天一大联考2026年高一3月联考语文试题.pdf
- 浙江四校(含精诚联盟)2025-2026学年高一下学期3月阶段检测英语+答案.docx
- 浙江四校(含精诚联盟)2025-2026学年高一下学期3月阶段检测政治+答案.docx
- 浙江四校(含精诚联盟)2025-2026学年高二下学期3月阶段检测地理+答案.pdf
原创力文档

文档评论(0)