爬虫概述——通过编写程序爬取互联网上的重要数据资源.pdf

爬虫概述——通过编写程序爬取互联网上的重要数据资源.pdf

  1. 1、本文档共161页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

爬⾍概述

什么是爬⾍?

不知道各位是否遇到过这样的需求.就是我们总是希望能够保存互联

⽹上的⼀些重要的数据信息为⼰所⽤.

⽐如,

在浏览到⼀些优秀的让⼈⾎脉喷张的图⽚时.总想保存起来留为

⽇后做桌⾯上的壁纸

在浏览到⼀些重要的数据时(各⾏各业),希望保留下来⽇后为⾃

⼰进⾏各种销售⾏为增光添彩

在浏览到⼀些奇奇怪怪的劲爆视频时,希望保存在硬盘⾥供⽇后

慢慢品鉴

在浏览到⼀些⼗分优秀的歌声曲⽬时,希望保存下来供我们在烦

闷的⽣活中增添⼀份精彩

那么恭喜你.本课程将⼗分的适合于你.因为爬⾍就是通过编写程序

来爬取互联⽹上的优秀资源(图⽚,⾳频,视频,数据)

爬⾍和Python

爬⾍⼀定要⽤Python么?⾮也~⽤Java也⾏,C也可以.请各位记住,

编程语⾔只是⼯具.抓到数据是你的⽬的.⽤什么⼯具去达到你的⽬

的都是可以的.和吃饭⼀样,可以⽤叉⼦也可以⽤筷⼦,最终的结果都

是你能吃到饭.那为什么⼤多数⼈喜欢⽤Python呢?答案:因为

Python写爬⾍简单.不理解?问:为什么吃⽶饭不⽤⼑叉?⽤筷⼦?

因为简单!好⽤!

⽽Python是众多编程语⾔中,⼩⽩上⼿最快,语法最简单.更重要的

是,这货有⾮常多的关于爬⾍能⽤到的第三⽅⽀持库.说直⽩点⼉.就

是你⽤筷⼦吃饭,我还附送你⼀个佣⼈.帮你吃!这样吃的是不是更爽

了.更容易了~

爬⾍合法么?

⾸先,爬⾍在法律上是不被禁⽌的.也就是说法律是允许爬⾍存在的.

但是,爬⾍也具有违法⻛险的.就像菜⼑⼀样,法律是允许菜⼑的存在

的.但是你要是⽤来砍⼈,那对不起.没⼈惯着你.就像王欣说过的,

技术是⽆罪的.主要看你⽤它来⼲嘛.⽐⽅说有些⼈就利⽤爬⾍+⼀些

⿊客技术每秒钟对着bilibili撸上⼗万⼋千次.那这个肯定是不被允许

的.

爬⾍分为善意的爬⾍和恶意的爬⾍

善意的爬⾍,不破坏被爬取的⽹站的资源(正常访问,⼀般频率不

⾼,不窃取⽤户隐私)

恶意的爬⾍,影响⽹站的正常运营(抢票,秒杀,疯狂solo⽹站资源

造成⽹站宕机)

综上,为了避免进我们还是要安分守⼰.时常优化⾃⼰的爬⾍程序

避免⼲扰到⽹站的正常运⾏.并且在使⽤爬取到的数据时,发现涉及

到⽤户隐私和商业机密等敏感内容时,⼀定要及时终⽌爬取和传播

爬⾍的⽭与盾

反爬机制⻔户⽹站,可以通过制定相应的策略或者技术⼿段,防⽌

爬⾍程序进⾏⽹站数据的爬取。

反反爬策略爬⾍程序可以通过制定相关的策略或者技术⼿段,破解

⻔户⽹站中具备的反爬机制,从⽽可以获取⻔户⽹站中相关的数

据。

robots.txt协议:君⼦协议。规定了⽹站中哪些数据可以被爬⾍爬取

哪些数据不可以被爬取。

本课程使⽤的软件概述

本课程中使⽤的开发⼯具:

python3.8(尽量不要⽤最新版的python)

pycharm(舒服,但收费,联系作者有神秘⼯具为您解忧)

如果有基础或者玩⼉的⽐较6的玩家也可以选择以下⼯具:

anaconda,jupyter

VisualStudioCode

python,IDLE(不推荐)

接下来就是安装了.Python安装过程就不赘述了.注意安装的时候需

要把python添加到环境变量中.其他的没啥注意的

⾄于Pycharm的安装.全程⼀路确定即可.

神秘⼯具的使⽤:恕不外放.需要的找客服.

第⼀个爬⾍

⾸先,我们还是需要回顾⼀下爬⾍的概念.爬⾍就是我们通过我们写

的程序去抓取互联⽹上的数据资源.⽐如,此时我需要百度的资源.在

不考虑爬⾍的情况下,我们肯定是打开浏览器,然后输⼊百度的⽹址,

紧接着,我们就能在浏览器上看到百度的内容了.那换成爬⾍呢?其

实道理是⼀样的.只不过,我们需要⽤代码来模拟⼀个浏览器,然后同

样的输⼊百度的⽹址.那么我们的程序应该也能拿到百度的内容.对

吧~

在python中,我们可以直接⽤urllib模块来完成对浏览器的模拟⼯作~,

直接上代码

1fromurllib.requestimporturlopen

2

3resp=urlopen()#打开百度

4print(resp.read().decode(utf-8))#打印抓取到的

内容

是不是很简单呢?

我们可以把抓取到的ht

文档评论(0)

hhx0627 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档