- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络爬虫
web crawler
Part One
爬虫的介绍
爬虫的定义
web crawler
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
爬虫的工作原理
web crawler
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。
通用的网络爬虫的框架
web crawler
通用搜索引擎的爬虫策略
web crawler
一、从爬虫的角度对互联网进行划分
5.还有一部分网页,爬虫是无法直接抓取下载的。称为不可知网页。
通用搜索引擎的爬虫策略
web crawler
二、搜索策略
因为互联网网页的多变性,选择合适的搜索策略对提高搜索引擎的效率很重要
网页的抓取策略可以分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致爬虫的陷入(trapped)问题,目前常见的是广度优先和最佳优先方法。
通用搜索引擎的爬虫策略
web crawler
1.广度优先搜索
广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。
通用搜索引擎的爬虫策略
web crawler
2.最佳优先搜索
最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取,包括反向链接数策略(反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序);Partial PageRank策略(Partial PageRank算法借鉴了PageRank算法的思想:对于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取URL队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面);OPIC策略策略(也是对页面进行一个重要性打分。在算法开始前,给所有页面一个相同的初始现金(cash)。当下载了某个页面P之后,将P的现金分摊给所有从P中分析出的链接,并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序);大站优先策略(对于待抓取URL队列中的所有网页,根据所属的网站进行分类。对于待下载页面数多的网站,优先下载)等。
通用搜索引擎的爬虫策略
web crawler
2.最佳优先搜索
最佳优先搜索策略按照一定的网页分析算法,预测候选URL与目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取,包括反向链接数策略(反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序);Partial PageRank策略(Partial PageRank算法借鉴了PageRank算法的思想:对于已经下载的网页,连同待抓取URL队列中的URL,形成网页集合,计算每个页面的PageRank值,计算完之后,将待抓取URL队列中的URL按照PageRank值的大小排列,并按照该顺序抓取页面);OPIC策略策略(也是对页面进行一个重要性打分。在算法开始前,给所有页面一个相同的初始现金(cash)。当下载了某个页面P之后,将P的现金分摊给所有从P中分析出的链接,并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数进行排序);大站优先策略(对于待抓取URL队列中的所有网页,根据所属的网站进行分类。对于待下载页面数多的网站,优先下载)等。
通用搜索引擎的爬虫策略
web crawler
三、分布式抓取系统结构
一般来说,抓取系统需要面对的是整个互联网上数以亿计的网页。单个抓取程序不可能完成这样的任务。往往需要多个抓取程序一起来处理
您可能关注的文档
- 2015年注册消防工程师()程序.doc
- 265m2烧结吊装程序.doc
- 2015年注册咨询工程师继续再教育考试--地基处理及桩基技术93分程序.doc
- 265m2烧结机工艺梳理程序.doc
- 265㎡烧结脱硫及成品上料输送系统工程监理工作程序.doc
- 2015年专业技术人员心理健康与心理调适考(90分以上)程序.doc
- CSR蓝牙的ClassofDevice的说明程序.docx
- 2015年最新电大计算机组成原理期末考试及小抄程序.doc
- 300MW、350MW定冷水系统说明书程序.doc
- 14套高大上免费年终汇报封面模板年终工作汇报探讨.pptx
- (全国卷地区)2016高考生物二轮复习专题限时集训6遗传的分子基础程序.doc
- 2016-2017学年湖北省枣阳市高级中学高三上学期8月检测语文程序.doc
- 2004年11月WCDMA-合作方(含)-11程序.doc
- (人教版)化学必修2“45分钟课后作业”2-2-2发展中的化学电源45分钟课后作业(含)程序.doc
- 如何创建精益车间案例.pptx
- (人教版)三年级语文期末复习18个知识点程序.doc
- 2004年11月WCDMA-合作方(含)程序.doc
- (人教版)限制性定语从句程序.doc
- 2004年江苏省对对口单招(化工专业综合)程序.doc
- 2016-2020年《新能源汽车推广应用工程推荐车型目录》申报工作启动程序.doc
文档评论(0)