杭电搜索引擎要点分析.docVIP

  • 1
  • 0
  • 约9.25千字
  • 约 22页
  • 2016-05-20 发布于湖北
  • 举报
杭州电子科技大学搜索引擎开发 项目简介 本项目要构建一个杭州电子科技大学校内网络的搜索引,搜搜引擎的主页面如图1-1所示。 图1-1 简单搜索引擎的主页面 用户登录到这个搭建好的网站上,输入所期望获取的信息的关键字后,搜索引擎会返回给用户所输入的关键字的网页地址、网页标题以及摘要。例如,输入“杭电”这个关键词后,显示结果如图1-2所示。用户可以从显示页面中选中一个标题,双击此标题就能浏览所选定网页内容。 图2-1 搜索引擎查询界面 搜索引擎的体系结构 一个完整的搜搜引擎主要包含3个部分:网页搜集、网页预处理和提供查询服务。图2-1为本搜索引的体系结构图。 图2-1 搜索引擎的体系结构图 开发工具 为了构建一个简单的搜索引擎,在本项目中采用的开发语言为java,其中用到的爬虫索引工具开发工具下载地址如下: JDK 1.7 下载地址为:/Eclipse-jee-kepler-SR1 下载地址为: /; apache-tomcat-6.0.37 下载地址为:/; Heritrix 1.14.4 下载地址为:/; Lucene 2.2.0 下载地址为:/’; je-analysis-1.5.1.jar 下载地址为:/; HTMLParser-2.0 下载地址为:/projects/htmlparser/;

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档