网络爬虫:抓取网页含义与URL基本构成.docVIP

网络爬虫:抓取网页含义与URL基本构成.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[Python]网络爬虫(一):抓取网页的含义和URL基本构成 一、网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字。 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通过网页的链接地址来寻找网页的。 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。 如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。 这样看来,网络爬虫就是一个爬行程序,一个抓取网页的程序。 网络爬虫的基本操作是抓取网页。 那么如何才能随心所欲地获得自己想要的页面? 我们先从URL开始。 二、浏览网页的过程 抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。 比如说你在浏览器的地址栏中输入 这个地址。 打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。 HTML是一种标记语言,用标签标记内容并加以解析和区分。 浏览器的功能是将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。 三、URI和URL的概念和举例 简单的来讲,URL就是在浏览器端输入的 这个字符串。 在理解URL之前,首先要理解URI的概念。 什么是URI? Web上每种可用的资源,如 HTML文档、图像、视频片段、程序等都由一个通用资源标志符(Universal Resource Identifier, URI)进行定位。 URI通常由三部分组成: ①访问资源的命名机制; ②存放资源的主机名; ③资源自身 的名称,由路径表示。 如下面的URI: /myhtml/html1223/ 我们可以这样解释它: ①这是一个可以通过HTTP协议访问的资源, ②位于主机 上, ③通过路径“/html/html40”访问。 四、URL的理解和举例 URL是URI的一个子集。它是Uniform Resource Locator的缩写,译为“统一资源定位 符”。 通俗地说,URL是Internet上描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上。 采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。 URL的一般格式为(带方括号[]的为可选项): protocol :// hostname[:port] / path / [;parameters][?query]#fragment URL的格式由三部分组成: ①第一部分是协议(或称为服务方式)。 ②第二部分是存有该资源的主机IP地址(有时也包括端口号)。 ③第三部分是主机资源的具体地址,如目录和文件名等。 第一部分和第二部分用“://”符号隔开, 第二部分和第三部分用“/”符号隔开。 第一部分和第二部分是不可缺少的,第三部分有时可以省略。 五、URL和URI简单比较 URI属于URL更低层次的抽象,一种字符串文本标准。 换句话说,URI属于父类,而URL属于URI的子类。URL是URI的一个子集。 URI的定义是:统一资源标识符; URL的定义是:统一资源定位符。 二者的区别在于,URI表示请求服务器的路径,定义这么一个资源。 而URL同时说明要如何访问这个资源(http://)。 下面来看看两个URL的小例子。 1.HTTP协议的URL示例: 使用超级文本传输协议HTTP,提供超级文本信息服务的资源。 例:/channel/welcome.htm 其计算机域名为。 超级文本文件(文件类型为.html)是在目录 /channel下的welcome.htm。 这是中国人民日报的一台计算机。 例:/talk/talk1.htm 其计算机域名为。 超级文本文件(文件类型为.html)是在目录/talk下的talk1.htm。 这是瑞得聊天室的地址,可由此进入瑞得聊天室的第1室。 2.文件的URL 用URL表示文件时,服务器方式用file表示,后面要有主机IP地址、文件的存取路 径(即目录)和文件名等信息。 有时可以省略目录和文件名,但“/”符号不能省略。 例:file:///pub/files/foobar.txt 上面这个URL代表存放在主机上的pub/files/目录下的一个文件,文件名是foobar.txt。 例:file:///pub 代表主机上的目录/pub。 例:file:/// 代表主机的根目录。 爬虫最主要的处理对象就是URL,它根据URL地址取得所需要

文档评论(0)

js1180 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档