- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
人工智能论文搜索算法在网络爬虫中的应用
搜索算法在网络爬虫中的应用
成都信息工程学院网络工程学院,成都,中国
摘要:通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。本文主要介绍宽度优先搜索算法跟深度优先搜索算法在网络爬虫中的应用。
关 键 词:宽度优先搜索;深度优先搜索;网络爬虫
1. 网络爬虫本质就是浏览器http请求
浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页:
1)首先, 客户端程序连接到域名系统(DNS)服务器上,DNS服务器将主机 名转换成ip 地址。
2)接下来,客户端试着连接具有该IP地址的服务器。服务器上可能有多个 不同进程程序在运行,每个进程程序都在监听网络以发现新的选接。.各个进程监听不同的网络端口 (port). 端口是一个l6位的数卞,用来辨识不同的服务。Http请求一般默认都是80端口。
3)一旦建立连接,客户端向服务器发送一个http请求,服务器接收到请求后,返回响应结果给客户端。
4)客户端关闭该连接。
详细了解http工作原理:网络互联参考模型(详解) 和Apache运行机制剖析。
2. 搜索引擎爬虫架构
但是浏览器是用户主动操作然后完成HTTP请求,而爬虫需要自动完成http请求,网络爬虫需要一套整体架构完成工作。
尽管爬虫技术经过几十年的发展,从整体框架上已相对成熟,但随着互联网 的不断发展,也面临着一些有挑战性的新问题。 通用爬虫框架如下图:
图1 通用爬虫框架
通用的爬虫框架流程:
1)首先从互联网页面中精心选择一部分网页,以这 些网页的链接地址作为种子URL;
2)将这些种子URL放入待抓取URL队列中;
3)爬虫从待抓取 URL队列依次读取,并将URL通过DNS解析,把链接地址转换为网站服务器对应的IP地址。
4)然后将IP地址和网页相对路径名称交给网页下载器。
5)网页下载器负责页面内容的下载。
6)对于下载到 本地的网页,一方面将其存储到页面库中,等待建立索引等后续处理;另一方面将下载网页的 URL放入己抓取URL队列中,这个队列记载了爬虫系统己经下载过的网页URL,以避免网页 的重复抓取。
7)对于刚下载的网页,从中抽取出所包含的所有链接信息,并在已抓取URL队列 中检査,如果发现链接还没有被抓取过,则将这个URL放入待抓取URL队歹!
8,9)末尾,在之后的 抓取调度中会下载这个URL对应的网页,如此这般,形成循环,直到待抓取URL队列为空。
3. 爬虫抓取策略
在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。
3.1 深度优先搜索策略(顺藤摸瓜策略)
即图的深度优先遍历算法。网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。
我们使用图的方式来说明:
我们假设互联网就是张有向图,图中每个顶点代表一个网页。 设初始状态是图中所有顶点未曾被访问,则深度优先搜索可从图中某个顶点发v 出发,访问此顶点,然后依次从v 的未被访问的邻接点出发深度优先遍历图,直至图中所有和v 有路径相通的顶点都被访问到;若此时图中尚有顶点未被访问,则另选图中一个未曾被访问的顶点作起始点,重复上述过程,直至图中所有顶点都被访问到为止。
以如下图的无向图G1为例,进行图的深度优先搜索:
图2 无向图G1
图3 搜索过程
假设从顶点页面v1 出发进行搜索抓取,在访问了页面v1 之后,选择邻接点页面v2。因为v2 未曾访问,则从v2 出发进行搜索。依次类推,接着从v4 、v8 、v5 出发进行搜索。在访问了v5 之后,由于v5 的邻接点都已被访问,则搜索回到v8。由于同样的理由,搜索继续回到v4,v2 直至v1,此时由于v1 的另一个邻接点未被访问,则搜索又从v1 到v3,再继续进行下去由此,得到的顶点访问序列为:
3.2 广度优先搜索策略
宽度优先遍历策略的基本思路是,将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。该算法
您可能关注的文档
- AlSiAl2O3SiC核壳结构颗粒的制备与性能表征硕士论文.doc
- AM真菌和PGPR菌剂组合对低温胁迫下黄瓜生长及防御酶活性的影响.doc
- AM酒店企业文化建设的成功经验及对我国五星级酒店的启示书.doc
- BIM完整论文建筑信息模型系统BIM)的策略研究.docx
- BIM技术在国内的发展趋势与问题研究毕业设计.doc
- 973项目申报书中低阶煤分级转化联产低碳燃料和化学品的基础研究.doc
- 9MW分散式风电场工程可行性研究报告8土建工程.doc
- AlSiAl2O3SiC核壳结构颗粒的制备与性能表征硕士论文及本科论文.doc
- BRP在中国企业的运用.doc
- BSMS公司构建和谐劳动关系企业的实践探析.doc
- 产业集群内创业社会网络对创业企业成长的影响机制及实证研究博士论文.doc
- 人文教育专业的培养目标与中学生文综教学衔接问题的研究论文初稿.doc
- 人民币贬值对我国外贸的影响大郑州大学西亚斯国际学院本科毕业论文.docx
- 京津冀一体化对区域内环境的影响本科毕业论文.docx
- 从个人网站到淘宝网仰观Java时代淘宝的技术发展.docx
- 从我实习的经历浅谈对人性化管理的重点内容的认识工商企业管理职业学院毕业论文(初稿.doc
- 从百家讲坛浅析电视节目传承中国传统文化中的创新与发展.doc
- 从注册申报要求及实践中分析QbD在药物注册文件中的运用硕士论文.doc
- 人力资源毕业论文基于双因素理论的IT企业员工激励体系的构建.doc
- 从要我学到我要学浅谈如何培养学生自主学习的能力.doc
文档评论(0)