爬虫学习心得.pptxVIP

  • 198
  • 0
  • 约2.03千字
  • 约 31页
  • 2017-05-16 发布于重庆
  • 举报
爬虫学习心得

爬虫学习心得;原来的代码有几点我们要改的 ;;这个就是多IP爬虫,一个IP很容易就被发现并禁止;这个就是多客户端爬虫,单一个的客户端很容易被发现并禁掉;;;? import socket 套接字 套接字是为特定网络协议(例如TCP/IP,ICMP/IP,UDP/IP等)套件对上的网络应用程序提供者提供当前可移植标准的对象。它们允许程序接受并进行连接,如发送和接受数据。为了建立通信通道,网络通信的每个端点拥有一个套接字对象极为重要。 Python中的random模块用于生成随机数。 ? import user_agents 这个比较特殊,是人为定义的库,这个库存储了许多IP或是对点评网的访问方式,目的就是随机选一个IP访问以避免网站对单一IP登陆的封杀。 ;timeout = 60 socket.setdefaulttimeout(timeout) ? #设置 HTTP 或 Socket 访问超时,来防止爬虫抓取某个页面时间过长。(这个时间用秒 #来算) def get_status(url): r = requests.get(url, allow_redirects = False) # allow_redirects = False不允许间接地访问,用request库中的get函数来抓取URL return r.status_code ;; page

文档评论(0)

1亿VIP精品文档

相关文档