nutch作为站内搜索引擎的优势.pptVIP

下载本文档

11
0
约4.29千字
约 18页
2017-08-15 发布于天津
举报
版权申诉

nutch作为站内搜索引擎的优势.ppt

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

nutch作为站内搜索引擎的优势

如百度，谷歌借助通用搜索引擎的优势提供全文站内搜索服务（site：域名关键字）.mysoo等。（华为网盘） * 1.（不需要爬虫程序，是因为程序员构造特定站点搜素引擎时可能源码使可以得到的。） 2.（如对资源分享类网站的搜索，并且数据库一般是可得到的） * 1) 建立初始URL 集 2) 将URL 集注入crawldb 数据库---inject 3) 根据crawldb 数据库创建抓取列表---generate 4) 执行抓取，获取网页信息---fetch 5) 更新数据库，把获取到的页面信息存入数据库中---updatedb 6) 重复进行3～5 的步骤，直到预先设定的抓取深度。---这个循环过程被称为“ 产生/ 抓取/ 更新” 循环 * ? crawldb: 爬行数据库，用来存储所要爬行的网址 ? linkdb: 链接数据库，用来存储每个网址的链接地址，包括源地址和链接地址 ? segments: 抓取的网址被作为一个单元，而一个segment 就是一个单元。一个segment 包括以下几个子目录: z crawl_generate:包含所抓取的网址列表 z crawl_fetch: 包含每个抓取页面的状态 z content:包含每个抓取页面的内容 z parse_text:包含每个抓取页面的解析文本 z parse_data: 包含每个页面的外部链接和元数据 z crawl_parse:包含网址的外部链接地址，用于更新crawldb 数据库 ? indexes: 采用Lucene 的格式建立索引集 * （可以在抓取和建立索引中控制抓取深度和每层次抓取页面数目。时间和效率问题） * （1）原生界面由于考虑多国语言，但是在我们的系统中是不需要的。（2）现实要求 * 原生系统分词器使用的是单字分词。按字建立索引。坏处：两点 * 基于Nutch的名医网站内搜索的实现与改进演讲人：姚中原指导老师：林予松研究背景、现状，问题提出搜索引擎及站内搜索概述 Nutch架构概述及基于此的简单站内搜素实现对Nutch原生站内搜索的改进主要内容研究背景随着社交婚恋、资源分享类网站等兴起，网站信息量也爆炸性增长。用户在庞杂的信息中找到自己感兴趣的信息变的越来越困难。很多网站为了增加用户粘合度，提供了内容分享。但提供给用户的查询接口更多的是基于数据库关键字的简单查询。更有些提供的只是基于同类内容的聚合，不提供检索。研究现状目前，在国内外已经有相对成熟的站内搜索相关软件产品和服务，还有专门为特定网站设计的站内搜索，在可定制性和可扩展性不佳。同时，对于大多数非盈利网站来说这些产品和服务代价太高。在开源项目方面，搜索方面开源项目也极多。有强大的站点爬虫项目Heritrix、索引和检索项目Lucene，还有搜索引擎框架Nutch，基于SQL的sphinx,甚至有企业级搜索引擎服务器Solr。这些项目都为我们提供解决方案提供参考。问题提出综上，我们希望搭建这样一个站内搜索系统：（1）基本通过开源项目实现，经济高效，方便配置，简单管理。（2）可定制性好，能够适用多种不同搜索应用环境。多重搜索条件下最好可以同时支持数据库和全文搜索。（3）具备良好的功能可扩充性，功能实现通过插件机制实现，很少或者不修改源代码。搜索引擎及站内搜索简介搜素引擎架构基本组成及工作原理（1）爬行器（2）索引器（3）检索器（4）用户接口站内搜索和通用搜索在架构上和工作流程上基本是相同的。但站内搜索也有其独特的特点。（1）站内搜索要提供更加准确的检索结果。（2）站内搜索可能要提供直接面向数据库的检索。（3）站内搜索由于是搜索特定站点。其爬虫器不需要过于复杂和庞大，甚至可以不需要爬虫程序。（4）由于特定站点数据更新频率更高，所以爬取索引的频率应该更加频繁。站内搜索和通用搜索的异同 Nutch简介及工作原理（一） Nutch是一个开源的优秀的搜索引擎框架，之所以称之为框架，是因为它包括了搭建一个搜素引擎所必须的组成部件。只需要简单配置就能构成一个搜索引擎。同时，Nutch设计初就已经考虑到分别为全网和站内提供搜索服务。 Nutch工作流程： (1)Start urls (2)Inject (3)Generate (4)Fetch (5)Updatedb (6)Redo(3-5) （7）Index （8）query （9）lucene query （10）return query Nutch简介及工作原理（二） Nutch搭建站内搜索时建立索引的抓取命令其中保证N