- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1.Nutch介绍 2.Nutch搭建搜索及演示 1.Nutch介绍 构建搜索引擎首先要从网上获取网页数据。这项工作通常使用专业的软件来完成,该软件被大家成为网络蜘蛛(Spider)。网络蜘蛛实际上是一个Socket程序,采用HTTP网络协议访问网页。这些网页提供给搜素引擎加工处理,就形成能够检索的信息。 1.Nutch介绍 Nutch是一个纯Java程序,平台无关性。用户可通过源码对Nutch进行修改和重新发布,通过Tomcat等Web服务器可以进行检索。 Nutch主要分为两个部分:爬虫crawler和查询searcher。crawler主要用于从网络上抓取网页并为这些网页建立索引。searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。 1.Nutch介绍 Nutch系统包含一个功能强大的网络蜘蛛。其核心是Crawl工具。这个工具根据事先设定的入口URL列表,不断地自动下载页面,直到满足系统预设的停止条件。Crawl本身是另外一系列页面下载相关工具的组合。 网络蜘蛛的存在使Nutch区别与Lucene,是一个完整的搜索引擎。Nutch的网络蜘蛛按照一定的数据结构存储,便于所引起建立Lucene索引。一般的网路蜘蛛之负责下载并按照一定格式存储网页,并不关心后续系统如何处理。 1.Nutch介绍 网页的下载任务可以使用Crawl命令独立完成,也可使用底层的admin、inject、generate、fetch和updatedb命令组合完成。而Crawl命令的内部也是调用底层命令的对应函数实现的。 admin:用来创建一个新的Web数据库。建成的数据库包含目录和数据存储结构,初始数据状态为空,需要后续命令来填充内容。其中的URL数据库,用来存放相关信息。 inject:添加数据下载的入口链接。首先读取给定的纯文本格式文件,获取URL列表,作为入口地址添加到已有的Web数据库中。 generate:生成待下载的URL列表。按照Web数据库格式提取未下载的URL,以fetchlist形式给出,为下载做好准备。 1.Nutch介绍 fetch:按照HTTP协议访问互联网,获取网页的数据具体内容。下载过程由下载列表和操作参数控制,直到下载完毕。 updatedb:用来添加网页下一层链接的URL。从已经下载的文件中获取URL链接,更新Web数据库,添加到已有的Web数据库。 分析提取页面内容 Generate提取待下载列表生成下载任务 Inject添加入口URL地址 Createdb创建Web数据库 索引检索 fetch下载模块 网页页面内容 待下载URL列表 Web 页面正文 updatedb下级URL链接 URL列表文件 获取页面 图1 Nutch网络蜘蛛结构图 1.Nutch介绍 1.Nutch介绍 下载后的数据存储主要以目录文件形式存放。具体内容包括Web数据库、数据段(segments)和数据索引。 Web数据库(web db):即URL数据库,存储网络爬虫抓取的网页信息和网页之间的链接信息。 数据段(segments):存放网络爬虫每一次抓取使用的待下载列表、已获得的网页内容和本次内容的索引。 数据索引:是数据段索引的合并和汇集。索引的数据包含了系统所有页面,以倒排索引的形式组织。 CrawlTool工具 Web 网页页面内容 nutch-site.xml文件 输出 crawl-urlfilter.txt文件 待下载URL列表文本 下载 图2 Nutch网络蜘蛛的工作机制 1.Nutch介绍 2.Nutch搭建搜索及演示 Ubuntu 11.04 Jdk 1.6 Nutch 1.2 Tomcat 6.0 2.Nutch搭建搜索及演示 命令:bin/nutch crawl urls –dir localweb –depth 2 –topN 30 –threads 2 -dir,指定存放爬行结果的目录 -depth 2,表明需要抓取的页面深度为2层内容 -topN 30,指明之抓取每一层的前N 个URL,本次为取每一层的前30个页面 -threads 2,指明Crawl采用两个下载线程进行下载 参考: 《Lucene+Nutch搜索引擎开发》 /view/4ff26cee102de2bd960588cc.html /share/detail
您可能关注的文档
- 201210105330.8_一种地铁车厢空间利用率指示装置和其使用方法.pdf
- 网易博客秘笈详解.doc
- 第七章 MUX30多路复用设备用户手册.doc
- 第一章 活用多余内存为硬盘减负.pdf
- 全等三角形识别1 华师大版.ppt
- 第三章 7-供应商文件评估标准(故障指示器).docx
- websphere V7 体系结构与网络架构.doc
- 机器人三维扫描加工系统及提高加工精度的新方法.pdf
- 第八章 数字逻辑复习2013.ppt
- 情报科学-推荐引擎知识图谱修订战略坐标图一校.doc
- 第一创业首次覆盖报告:固收特色筑底,双轮驱动启航.docx
- 半导体先进封装行业深度研究报告:AI算力需求激增,先进封装产业加速成长.docx
- 北证专精特新指数投资价值分析:代表创新型中小企业排头兵的优质成长指数.docx
- 2024年中国文化影响力投资白皮书-2025-106页.pdf
- 2025新时代央国企青年人才的选拔培养与发展报告-智联测评研究院-2025-60页.pdf
- 软件主导的汽车革命:中国市场描绘的SDV未来图景-ABeam-2025.8-34页.pdf
- 2025年中国最佳品牌排行榜-Interbrand-2025-39页.pdf
- 华鲁恒升二季度业绩环比提升,新项目投产贡献增量.docx
- 策略点评:本轮行情来慢牛特征显著,近期波动或增加.docx
- 和铂医药-B(02142.HK)全球稀缺抗体平台,In+China+for+global的BD领军者-250826-东吴证券-27页.docx
文档评论(0)