- 5
- 0
- 约1.9千字
- 约 16页
- 2015-10-17 发布于江苏
- 举报
数学公式搜索索引的构建及工作进展.ppt
本文观看结束!!! 1.Nutch介绍 2.Nutch搭建搜索及演示 1.Nutch介绍 构建搜索引擎首先要从网上获取网页数据。这项工作通常使用专业的软件来完成,该软件被大家成为网络蜘蛛(Spider)。网络蜘蛛实际上是一个Socket程序,采用HTTP网络协议访问网页。这些网页提供给搜素引擎加工处理,就形成能够检索的信息。 1.Nutch介绍 Nutch是一个纯Java程序,平台无关性。用户可通过源码对Nutch进行修改和重新发布,通过Tomcat等Web服务器可以进行检索。 Nutch主要分为两个部分:爬虫crawler和查询searcher。crawler主要用于从网络上抓取网页并为这些网页建立索引。searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。 1.Nutch介绍 Nutch系统包含一个功能强大的网络蜘蛛。其核心是Crawl工具。这个工具根据事先设定的入口URL列表,不断地自动下载页面,直到满足系统预设的停止条件。Crawl本身是另外一系列页面下载相关工具的组合。 网络蜘蛛的存在使Nutch区别与Lucene,是一个完整的搜索引擎。Nutch的网络蜘蛛按照一定的数据结构存储,便于所引起建立Lucene索引。一般的网路蜘蛛之负责下载并按照一定格式存储网页,并不关心后续系统如何处理。
原创力文档

文档评论(0)