- 198
- 0
- 约2.03千字
- 约 31页
- 2017-05-16 发布于重庆
- 举报
爬虫学习心得
爬虫学习心得;原来的代码有几点我们要改的;;这个就是多IP爬虫,一个IP很容易就被发现并禁止;这个就是多客户端爬虫,单一个的客户端很容易被发现并禁掉;;;?
import socket套接字套接字是为特定网络协议(例如TCP/IP,ICMP/IP,UDP/IP等)套件对上的网络应用程序提供者提供当前可移植标准的对象。它们允许程序接受并进行连接,如发送和接受数据。为了建立通信通道,网络通信的每个端点拥有一个套接字对象极为重要。
Python中的random模块用于生成随机数。
?
import user_agents 这个比较特殊,是人为定义的库,这个库存储了许多IP或是对点评网的访问方式,目的就是随机选一个IP访问以避免网站对单一IP登陆的封杀。
;timeout = 60
socket.setdefaulttimeout(timeout)
?
#设置 HTTP 或 Socket 访问超时,来防止爬虫抓取某个页面时间过长。(这个时间用秒
#来算)
def get_status(url):
r = requests.get(url, allow_redirects = False)
# allow_redirects = False不允许间接地访问,用request库中的get函数来抓取URL
return r.status_code
;; page
您可能关注的文档
- 演示文稿一二九定稿.ppt
- 演讲中的自我介绍.ppt
- 演讲文稿课件.ppt
- 漫谈中国文化.ppt
- 潍坊的名吃.ppt
- 漫谈质量保证者.ppt
- 潜心会文本.ppt
- 澜鼎华府818开业.ppt
- 激励员工的类型.ppt
- 火灾逃生的四个要点.ppt
- 2026年云南省普洱市事业单位招聘考试参考题库及答案解析.docx
- 2025年宁波市鄞州区中小学教师招聘笔试试题及答案解析.docx
- 2026年太原市小店区中小学教师招聘笔试备考题库及答案解析.docx
- 2026年广元市朝天区事业单位招聘考试备考题库及答案解析.docx
- 2026年河南省驻马店市事业单位招聘考试备考题库及答案解析.docx
- 2026年全球AI医疗影像诊断技术临床验证进展分析.docx
- 新北师大版数学二年级下册《5.1图形王国》ppt教学课件.pptx
- 2026年江苏省事业单位招聘考试备考试题及答案解析.docx
- 2025年洛阳市涧西区事业单位招聘笔试试题及答案解析.docx
- 小学二年级手工课程教学计划范文.docx
原创力文档

文档评论(0)