网络爬虫调研报告.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络爬虫调研报告 基本原理 Spider 概述 Spider 即网络爬虫 ,其定义有广义和狭义之分。狭义上指遵循标准的 http 协 议利用超链接和 Web 文档检索的方法遍历万维网信息空间的软件程序 ;而广义 的定义则是所有能遵循 http 协议检索 Web 文档的软件都称之为网络爬虫。 Spider 是一个功能很强的自动提取网页的程序 ,它为搜索引擎从万维网上下 载网页 ,是搜索引擎的重要组成 .它通过请求站点上的 HTML 文档访问某一站 点。它遍历 Web 空间 ,不断从一个站点移动到另一个站点 ,自动建立索引 ,并加 入到网页数据库中。网络爬虫进入某个超级文本时 ,它利用 HTML 语言的标记 结构来搜索信息及获取指向其他超级文本的 URL 地址 ,可以完全不依赖用户干 预实现网络上的自动爬行和搜索。 Spider 的队列 (1)等待队列 :新发现的 URL 被加入到这个队列 ,等待被 Spider 程序处 理 ; (2 )处理队列 :要被处理的 URL 被传送到这个队列。 为了避免同一个 UR L 被多次处理 ,当一个 URL 被处理过后 ,它将被转移到完成队列或者错误队列 (如果发生错误 )。 (3 )错误队列 :如果在下载网页是发生错误 ,该 URL 将被加入 到错误队 列。 (4 )完成队列 :如果在处理网页没有发生错误 ,该 URL 将被加入到完成队 列。 网络爬虫搜索策略 在抓取网页的时候 , 目前网络爬虫一般有两种策略 :无主题搜索与基于某特 定主体的专业智能搜索。其中前者主要包括 :广度优先和深度优先。广度优先是 指网络爬虫会先抓取起始网页中链接的所有网页 ,然后再选择其中的一个链接 网页 ,继续抓取在此网页中链接的所有网页。 这是最常用的方式 ,因为这个方法可 以让网络爬虫并行处理 ,提高其抓取速度。 深度优先是指网络爬虫会从起始页开 始 ,一个链接一个链接跟踪下去 ,处理完这条线路之后再转入下一个起始页 ,继 续跟踪链接。 这个方法有个优点是网络爬虫在设计的时候比较容易。 大多数网页 爬行器采用宽度优先搜索策略或者是对这种策略的某些改进。 在专业搜索引擎中 ,网络爬虫的任务是获取 Web 页面和决定链接的访问顺 序 ,它通常从一个 “种子集 ”(如用户查询、种子链接或种子页面 )发 ,以迭代 的方式访问页面和提取链接。 搜索过程中 ,未访问的链接被暂存在一个称为 “搜 索前沿 ”(Spider Frontier)的队列中 ,网络爬虫根据搜索前沿中链接的 “重要程 度 ”决定下一个要访问的链接。如何评价和预测链接的 “重要程度 ”(或称价 值 )是决定网络爬虫搜索策略的关键。 众多的网络爬虫设计各不相同 ,但归根结底是采用不同的链接价值评价标 准。 常用开源网络爬虫介绍及其比较

文档评论(0)

lh2468lh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档