nutch作为站内搜索引擎的优势.pptVIP

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
nutch作为站内搜索引擎的优势

如百度,谷歌借助通用搜索引擎的优势提供全文站内搜索服务(site:域名 关键字).mysoo等。(华为网盘) * 1.(不需要爬虫程序,是因为程序员构造特定站点搜素引擎时可能源码使可以得到的。) 2.(如对资源分享类网站的搜索,并且数据库一般是可得到的) * 1) 建立初始URL 集 2) 将URL 集注入crawldb 数据库---inject 3) 根据crawldb 数据库创建抓取列表---generate 4) 执行抓取,获取网页信息---fetch 5) 更新数据库,把获取到的页面信息存入数据库中---updatedb 6) 重复进行3~5 的步骤,直到预先设定的抓取深度。---这个循环过程被称 为“ 产生/ 抓取/ 更新” 循环 * ? crawldb: 爬行数据库,用来存储所要爬行的网址 ? linkdb: 链接数据库,用来存储每个网址的链接地址,包括源地址和链 接地址 ? segments: 抓取的网址被作为一个单元,而一个segment 就是一个单元。 一个segment 包括以下几个子目录: z crawl_generate:包含所抓取的网址列表 z crawl_fetch: 包含每个抓取页面的状态 z content:包含每个抓取页面的内容 z parse_text:包含每个抓取页面的解析文本 z parse_data: 包含每个页面的外部链接和元数据 z crawl_parse:包含网址的外部链接地址,用于更新crawldb 数据库 ? indexes: 采用Lucene 的格式建立索引集 * (可以在抓取和建立索引中控制抓取深度和每层次抓取页面数目。时间和效率问题) * (1)原生界面由于考虑多国语言,但是在我们的系统中是不需要的。 (2)现实要求 * 原生系统分词器使用的是单字分词。按字建立索引。坏处:两点 * 基于Nutch的名医网站内搜索的实现与改进 演讲人:姚中原 指导老师:林予松 研究背景、现状,问题提出 搜索引擎及站内搜索概述 Nutch架构概述及基于此的简单站内搜素实现 对Nutch原生站内搜索的改进 主要内容 研究背景 随着社交婚恋、资源分享类网站等兴起,网站信息量也爆炸性增长。用户在庞杂的信息中找到自己感兴趣的信息变的越来越困难。 很多网站为了增加用户粘合度,提供了内容分享。但提供给用户的查询接口更多的是基于数据库关键字的简单查询。更有些提供的只是基于同类内容的聚合,不提供检索。 研究现状 目前,在国内外已经有相对成熟的站内搜索相关软件产品和服务,还有专门为特定网站设计的站内搜索,在可定制性和可扩展性不佳。同时,对于大多数非盈利网站来说这些产品和服务代价太高。 在开源项目方面,搜索方面开源项目也极多。有强大的站点爬虫项目Heritrix、索引和检索项目Lucene,还有搜索引擎框架Nutch,基于SQL的sphinx,甚至有企业级搜索引擎服务器Solr。这些项目都为我们提供解决方案提供参考。 问题提出 综上,我们希望搭建这样一个站内搜索系统: (1)基本通过开源项目实现,经济高效,方便配置,简单管理。 (2)可定制性好,能够适用多种不同搜索应用环境。多重搜索条件下最好可以同时支持数据库和全文搜索。 (3)具备良好的功能可扩充性,功能实现通过插件机制实现,很少或者不修改源代码。 搜索引擎及站内搜索简介 搜素引擎架构基本组成及工作原理 (1)爬行器 (2)索引器 (3)检索器 (4)用户接口 站内搜索和通用搜索在架构上和工作流程上基本是相同的。但站内搜索也有其独特的特点。 (1)站内搜索要提供更加准确的检索结果。 (2)站内搜索可能要提供直接面向数据库的检索。 (3)站内搜索由于是搜索特定站点。其爬虫器不需要过于复杂和庞大,甚至可以不需要爬虫程序。 (4)由于特定站点数据更新频率更高,所以爬取索引的频率应该更加频繁。 站内搜索和通用搜索的异同 Nutch简介及工作原理(一) Nutch是一个开源的优秀的搜索引擎框架,之所以称之为框架,是因为它包括了搭建一个搜素引擎所必须的组成部件。只需要简单配置就能构成一个搜索引擎。同时,Nutch设计初就已经考虑到分别为全网和站内提供搜索服务。 Nutch工作流程: (1)Start urls (2)Inject (3)Generate (4)Fetch (5)Updatedb (6)Redo(3-5) (7)Index (8)query (9)lucene query (10)return query Nutch简介及工作原理(二) Nutch搭建站内搜索时建立索引的抓取命令 其中保证N

文档评论(0)

wangyueyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档