毕业设计论文基于Lucene与Heritrix的搜索引擎构建.doc

毕业设计论文基于Lucene与Heritrix的搜索引擎构建.doc

基于Lucene与Heritrix的搜索引擎构建 摘 要 在互联网蓬勃发展的今天,互联网上的信息更是浩如烟海。人们在享受互联网带来的便利的同时,却面临着一个如何在如此海量的内容中准确、快捷地找到自己所需要的信息的问题,由此互联网搜索引擎应运而生。 本文在对搜索引擎的原理、组成、数据结构和工作流程等方面深入研究的基础上,对搜索引擎的三个核心部分即网络蜘蛛、网页索引和搜索的分析及实现过程进行阐述。网络蜘蛛部分采用了基于递归和归档机制的Heritrix网络爬虫;网页索引部分利用开源的Lucene引擎架构设计并实现了一个可复用的、可扩展的索引建立与管理子系统;搜索部分在Ajax技术支持上,设计并实现了一个灵活、简洁的用户接口。本系统具有抓取网页、建立和管理索引、建立日志以及搜索信息等功能,具备一定的应用前景。 关键词:搜索引擎;中文分词;索引 The Construction of Search Engine Based on Lucene and Heritrix Abstract The contents on the Web are increasing exponentially as the rapid development of the Internet. A problem how to obtain the useful information from

文档评论(0)

1亿VIP精品文档

相关文档