- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2017-014_葛俊_爬虫入门分享
爬⾍⼊门分享
JUN 2017.04.13
爬⾍的定义
爬⾍,即⽹络爬⾍,是⼀
种按照⼀定的规则,⾃动
的抓取万维⽹信息的程序
或者脚本。
通⽤爬⾍的⼯作原理
爬⾍框架-Scrapy
Scrapy是⼀个为了爬取⽹站数据,提取结构性
数据⽽编写的应⽤框架.
Scrapy⽤途⼴泛,可以⽤于数据挖掘、监测和⾃
动化测试
Scrapy架构概览
常见的反爬⾍策略
临时或永久封禁来访ip
返回验证码
异步加载(ajax)
爬⾍陷阱
应对⽅法
引⼊IP代理池
利⽤图像处理,识别技术破解验证码
使⽤selenium+phantomjs模拟⽤户浏览器请求
⼊门参考资料
/en/latest/
/book/piaosanlang/
spiders/details
/category/technique/
python
/crawler
END!
–J UN
您可能关注的文档
- 2014年会计证财经法规课件胡老师班用.DOC
- 2014年城建年报编制说明.DOC
- 2014年企业创新调查培训课件企业通用版.PPT
- 2014年版企业所得税年汇算清缴.PPT
- 2014年第一季度报告-广东汕头超声电子股份有限公司.PDF
- 2014年美丽乡村重点村深州辰时镇北章村公路沿线深州辰时.DOC
- 2014年艺术设计系宣传部总结.PPT
- 2014度企业所得税汇算41张新表讲解-纳税人学堂.PPT
- 2014海淀区各小学划片范围-北京幼升小网.DOC
- 2014年黑龙江哈尔滨中考化学模拟试题-VCM仿真试验.DOC
- 重庆新速达物业服务集团股份凯里公司招聘笔试题库2024.pdf
- 浙江杭州千岛湖泰众肉类食品有限公司招聘笔试题库2024.pdf
- 陕西新华出版传媒集团新华书店分公司招聘笔试题库2024.pdf
- 宁夏海原县肉牛产业发展集团有限公司招聘笔试题库2024.pdf
- 浙江温岭市化工轻工建筑材料有限公司招聘笔试题库2024.pdf
- 中航飞机汉中航空零组件制造有限公司招聘笔试题库2024.pdf
- 山东海阳市海昇矿产资源开发有限公司招聘笔试题库2024.pdf
- 山东潍坊寿光市公共交通运输有限公司招聘笔试题库2024.pdf
- 内蒙古察右前旗农业投资开发有限公司招聘笔试题库2024.pdf
- 线上清明祭英烈活动策划.pptx
文档评论(0)