- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1.Nutch介绍 2.Nutch搭建搜索及演示 1.Nutch介绍 构建搜索引擎首先要从网上获取网页数据。这项工作通常使用专业的软件来完成,该软件被大家成为网络蜘蛛(Spider)。网络蜘蛛实际上是一个Socket程序,采用HTTP网络协议访问网页。这些网页提供给搜素引擎加工处理,就形成能够检索的信息。 1.Nutch介绍 Nutch是一个纯Java程序,平台无关性。用户可通过源码对Nutch进行修改和重新发布,通过Tomcat等Web服务器可以进行检索。 Nutch主要分为两个部分:爬虫crawler和查询searcher。crawler主要用于从网络上抓取网页并为这些网页建立索引。searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。 1.Nutch介绍 Nutch系统包含一个功能强大的网络蜘蛛。其核心是Crawl工具。这个工具根据事先设定的入口URL列表,不断地自动下载页面,直到满足系统预设的停止条件。Crawl本身是另外一系列页面下载相关工具的组合。 网络蜘蛛的存在使Nutch区别与Lucene,是一个完整的搜索引擎。Nutch的网络蜘蛛按照一定的数据结构存储,便于所引起建立Lucene索引。一般的网路蜘蛛之负责下载并按照一定格式存储网页,并不关心后续系统如何处理。 1.Nutch介绍 网页的下载任务可以使用Crawl命令独立完成,也可使用底层的admin、inject、generate、fetch和updatedb命令组合完成。而Crawl命令的内部也是调用底层命令的对应函数实现的。 admin:用来创建一个新的Web数据库。建成的数据库包含目录和数据存储结构,初始数据状态为空,需要后续命令来填充内容。其中的URL数据库,用来存放相关信息。 inject:添加数据下载的入口链接。首先读取给定的纯文本格式文件,获取URL列表,作为入口地址添加到已有的Web数据库中。 generate:生成待下载的URL列表。按照Web数据库格式提取未下载的URL,以fetchlist形式给出,为下载做好准备。 1.Nutch介绍 fetch:按照HTTP协议访问互联网,获取网页的数据具体内容。下载过程由下载列表和操作参数控制,直到下载完毕。 updatedb:用来添加网页下一层链接的URL。从已经下载的文件中获取URL链接,更新Web数据库,添加到已有的Web数据库。 分析提取页面内容 Generate提取待下载列表生成下载任务 Inject添加入口URL地址 Createdb创建Web数据库 索引检索 fetch下载模块 网页页面内容 待下载URL列表 Web 页面正文 updatedb下级URL链接 URL列表文件 获取页面 图1 Nutch网络蜘蛛结构图 1.Nutch介绍 1.Nutch介绍 下载后的数据存储主要以目录文件形式存放。具体内容包括Web数据库、数据段(segments)和数据索引。 Web数据库(web db):即URL数据库,存储网络爬虫抓取的网页信息和网页之间的链接信息。 数据段(segments):存放网络爬虫每一次抓取使用的待下载列表、已获得的网页内容和本次内容的索引。 数据索引:是数据段索引的合并和汇集。索引的数据包含了系统所有页面,以倒排索引的形式组织。 CrawlTool工具 Web 网页页面内容 nutch-site.xml文件 输出 crawl-urlfilter.txt文件 待下载URL列表文本 下载 图2 Nutch网络蜘蛛的工作机制 1.Nutch介绍 2.Nutch搭建搜索及演示 Ubuntu 11.04 Jdk 1.6 Nutch 1.2 Tomcat 6.0 2.Nutch搭建搜索及演示 命令:bin/nutch crawl urls –dir localweb –depth 2 –topN 30 –threads 2 -dir,指定存放爬行结果的目录 -depth 2,表明需要抓取的页面深度为2层内容 -topN 30,指明之抓取每一层的前N 个URL,本次为取每一层的前30个页面 -threads 2,指明Crawl采用两个下载线程进行下载 参考: 《Lucene+Nutch搜索引擎开发》 /view/4ff26cee102de2bd960588cc.html /share/detail
您可能关注的文档
- (BaxSr1-x)TiO3Mg2TiO4组分梯度陶瓷制备及介电.pdf
- §2二重积分计算.pdf
- 3章媒质电磁性质和边界条件.pdf
- 28复式河道水沙运动规律研究190;简要信息.pdf
- 32二元共体系共聚物组成和原料组成关系.ppt
- 100GDWDM优化OSNR技术.pdf
- 113对称三相电路计算.ppt
- 0201元件对制造工艺影响-1.doc
- BGA焊点气孔对可靠性影响及其改善措施.pdf
- CAD外部参照在建筑设计中应用与技巧.pdf
- 2025年数码电子阴道镜行业现状分析报告及未来五至十年发展前景预测报告.docx
- 2025年成都银行总行社会招聘考试备考题库及答案解析.docx
- 2025年女用避孕套行业现状分析报告及未来五至十年发展前景预测报告.docx
- 2025年7月福建厦门市社会科学界联合会所属事业单位厦门市社会科学院简化程序招聘事业单位专业技术岗位人员1人考试备考题库及答案解析.docx
- 2025年度襄阳市法院系统招聘雇员制审判辅助人员职业技能测试考试备考题库及答案解析.docx
- 2025年安徽水安建设集团股份有限公司第二批次招聘6人考试备考题库及答案解析.docx
- 2025年公积金贷款行业现状分析报告及未来五至十年发展前景预测报告.docx
- 2025年安徽省直某机关单位效能投诉和“办不成事”窗口招聘2人考试备考试题及答案解析.docx
- 2025年7月四川泰康医院招聘考试备考题库及答案解析.docx
- 2025年7月浙江嘉兴市海宁市中心医院(浙江省人民医院海宁医院)招聘高层次急需卫技人员6人考试备考题库及答案解析.docx
最近下载
- 初中历史教师备课与授课.ppt VIP
- 62推销理论(教案)(商务谈判与推销).docx VIP
- 眼科学---巩膜扣带术.ppt VIP
- 2024年山东省平原县事业单位公开招聘教师岗笔试题带答案.docx VIP
- 新世纪全国高等中医药院校教材(第一版).doc VIP
- 初中语文2025届中考常考易错字词汇总(多音字+形声字+易错字形+易错成语)_可搜索.pdf VIP
- PADI开放水域潜水员理论考试A卷.docx VIP
- 社会责任全套培训记录表(含附属全套电子表格表).xls VIP
- 路科笔试真题完整版1.5.1.pdf VIP
- (人教版)八年级物理上册《第一章机械运动》单元测试卷含答案.docx VIP
文档评论(0)