- 1、本文档共161页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
爬⾍概述
什么是爬⾍?
不知道各位是否遇到过这样的需求.就是我们总是希望能够保存互联
⽹上的⼀些重要的数据信息为⼰所⽤.
⽐如,
在浏览到⼀些优秀的让⼈⾎脉喷张的图⽚时.总想保存起来留为
⽇后做桌⾯上的壁纸
在浏览到⼀些重要的数据时(各⾏各业),希望保留下来⽇后为⾃
⼰进⾏各种销售⾏为增光添彩
在浏览到⼀些奇奇怪怪的劲爆视频时,希望保存在硬盘⾥供⽇后
慢慢品鉴
在浏览到⼀些⼗分优秀的歌声曲⽬时,希望保存下来供我们在烦
闷的⽣活中增添⼀份精彩
那么恭喜你.本课程将⼗分的适合于你.因为爬⾍就是通过编写程序
来爬取互联⽹上的优秀资源(图⽚,⾳频,视频,数据)
爬⾍和Python
爬⾍⼀定要⽤Python么?⾮也~⽤Java也⾏,C也可以.请各位记住,
编程语⾔只是⼯具.抓到数据是你的⽬的.⽤什么⼯具去达到你的⽬
的都是可以的.和吃饭⼀样,可以⽤叉⼦也可以⽤筷⼦,最终的结果都
是你能吃到饭.那为什么⼤多数⼈喜欢⽤Python呢?答案:因为
Python写爬⾍简单.不理解?问:为什么吃⽶饭不⽤⼑叉?⽤筷⼦?
因为简单!好⽤!
⽽Python是众多编程语⾔中,⼩⽩上⼿最快,语法最简单.更重要的
是,这货有⾮常多的关于爬⾍能⽤到的第三⽅⽀持库.说直⽩点⼉.就
是你⽤筷⼦吃饭,我还附送你⼀个佣⼈.帮你吃!这样吃的是不是更爽
了.更容易了~
爬⾍合法么?
⾸先,爬⾍在法律上是不被禁⽌的.也就是说法律是允许爬⾍存在的.
但是,爬⾍也具有违法⻛险的.就像菜⼑⼀样,法律是允许菜⼑的存在
的.但是你要是⽤来砍⼈,那对不起.没⼈惯着你.就像王欣说过的,
技术是⽆罪的.主要看你⽤它来⼲嘛.⽐⽅说有些⼈就利⽤爬⾍+⼀些
⿊客技术每秒钟对着bilibili撸上⼗万⼋千次.那这个肯定是不被允许
的.
爬⾍分为善意的爬⾍和恶意的爬⾍
善意的爬⾍,不破坏被爬取的⽹站的资源(正常访问,⼀般频率不
⾼,不窃取⽤户隐私)
恶意的爬⾍,影响⽹站的正常运营(抢票,秒杀,疯狂solo⽹站资源
造成⽹站宕机)
综上,为了避免进我们还是要安分守⼰.时常优化⾃⼰的爬⾍程序
避免⼲扰到⽹站的正常运⾏.并且在使⽤爬取到的数据时,发现涉及
到⽤户隐私和商业机密等敏感内容时,⼀定要及时终⽌爬取和传播
爬⾍的⽭与盾
反爬机制⻔户⽹站,可以通过制定相应的策略或者技术⼿段,防⽌
爬⾍程序进⾏⽹站数据的爬取。
反反爬策略爬⾍程序可以通过制定相关的策略或者技术⼿段,破解
⻔户⽹站中具备的反爬机制,从⽽可以获取⻔户⽹站中相关的数
据。
robots.txt协议:君⼦协议。规定了⽹站中哪些数据可以被爬⾍爬取
哪些数据不可以被爬取。
本课程使⽤的软件概述
本课程中使⽤的开发⼯具:
python3.8(尽量不要⽤最新版的python)
pycharm(舒服,但收费,联系作者有神秘⼯具为您解忧)
如果有基础或者玩⼉的⽐较6的玩家也可以选择以下⼯具:
anaconda,jupyter
VisualStudioCode
python,IDLE(不推荐)
接下来就是安装了.Python安装过程就不赘述了.注意安装的时候需
要把python添加到环境变量中.其他的没啥注意的
⾄于Pycharm的安装.全程⼀路确定即可.
神秘⼯具的使⽤:恕不外放.需要的找客服.
第⼀个爬⾍
⾸先,我们还是需要回顾⼀下爬⾍的概念.爬⾍就是我们通过我们写
的程序去抓取互联⽹上的数据资源.⽐如,此时我需要百度的资源.在
不考虑爬⾍的情况下,我们肯定是打开浏览器,然后输⼊百度的⽹址,
紧接着,我们就能在浏览器上看到百度的内容了.那换成爬⾍呢?其
实道理是⼀样的.只不过,我们需要⽤代码来模拟⼀个浏览器,然后同
样的输⼊百度的⽹址.那么我们的程序应该也能拿到百度的内容.对
吧~
在python中,我们可以直接⽤urllib模块来完成对浏览器的模拟⼯作~,
直接上代码
1fromurllib.requestimporturlopen
2
3resp=urlopen()#打开百度
4print(resp.read().decode(utf-8))#打印抓取到的
内容
是不是很简单呢?
我们可以把抓取到的ht
您可能关注的文档
- Python 爬虫环境与爬虫简介.ppt
- 广西交通职业技术学院计算机应用技术专业人才培养方案.pdf
- 化工分析与检验专业人才培养方案(5年制高级工).pdf
- 计算机的发展与应用.pdf
- 计算机基础知识——第一章:计算机基础知识.pdf
- 计算机基础知识与基本操作.pdf
- 计算机应用专业人才培养方案.pdf
- 网络爬虫技术简介.pdf
- 数学沪科版七年级(上册)2.1.2 第1课时 代数式的用法.pptx
- 英语人教PEP版八年级(上册)Unit 8 section A(1a-1c) ((共27张PPT).pptx
- 英语人教PEP版八年级(上册)Unit4+writing+写作.pptx
- 人美版美术四年级(上册)8 笔的世界 课件 (1).pptx
- 人美版美术七年级(上册)龙的制作.pptx
- 英语人教PEP版六年级(上册)Unit 2 第一课时.pptx
- 数学苏教版三年级(上册)3.3 长方形和正方形周长的计算 苏教版(共12张PPT).pptx
- 音乐人教版八年级(上册)青春舞曲 课件2.pptx
- 音乐人教版四年级(上册) 第一单元 音乐知识 附点四分音符|人教版.pptx
- 英语人教PEP版四年级(上册)Unit 6 Part B let's learn 1.pptx
- 道德与法治人教版二年级(上册)课件-3.11大家排好队部编版(共18张PPT).pptx
- 人美版美术七年级(上册)《黄山天下奇》课件1.pptx
文档评论(0)