Nutch搜索引擎简介Nutch 是一个基于 Java 实现的开源搜索引擎,其内部使用了高性能全文索引引擎工具 Lucene。从 nutch0.8.0开始,Nutch 完全构建在 Hadoop 分布式计算平台之上。Hadoop 除了是一个分布式文件系统外,还实现了 Google 的 GFS 和 MapReduce 算法。因此基于 Hadoop 的 Nutch 搜索引擎可以部署在由成千上万计算机组成的大型集群上。由于商业搜索引擎允许竞价排名,这样导致索引结果并不完全是和站点内容相关的,而 Nutch 搜索结果能够给出一个公平的排序结果,这使得 Nutch 在垂直搜索、档案互联网搜索等领域得到了广泛应用。背景知识Nutch 搜索引擎是一个基于 Java 的开放源代码的搜索引擎。Nutch 搜索引擎处理流程包括抓取流程和搜索流程,如图 1 所示。相应地 Nutch 也分为2部分,抓取器和搜索器。在抓取流程中,抓取器也叫蜘蛛或者机器人,以广度优先搜索(BFS)的方式从企业内部网或者互联网抓取网页。这个过程涉及到对 CrawlDB 和 LinkDB 数据库的操作。然后 Nutch 解析器开始解析诸如 HTML、XML、RSS、PDF等不同格式的文档。最后 Nutch 索引器针对解析结果建立索引并存储到 indexDB 和 SegmentsDB 数据库中,以供搜索器搜索使用。在搜索流程中,搜索
您可能关注的文档
最近下载
- 2025青海省高校毕业生“三支一扶”计划服务人员招募1950人考试备考试题及答案解析.docx VIP
- 煤矿电子围栏安装示意及说明参考.pdf VIP
- 通达信指标公式源码-六彩神龙源码(超级好用).doc VIP
- (2025年)广东广州市花都区事业单位考试题库公共基础知识真题及答案.docx VIP
- TCL 冰箱BCD-220EZ60使用说明书.pdf
- 核心机房电源系统健康度评估模型及说明241009V3.docx VIP
- 【人教版七下语文】阅读答题模板.pdf VIP
- 琵琶 琵琶能力拓展训练 五重奏《梦》.pptx VIP
- 2025广东广州市花都区部分事业单位招聘事业单位工作人员9人笔试参考题库附答案解析.docx VIP
- 光面爆破技术课件.ppt VIP
原创力文档

文档评论(0)