- 4
- 0
- 约6.54千字
- 约 7页
- 2017-01-20 发布于重庆
- 举报
使用python爬蟲抓站的一些技巧总结进阶篇t
以前写过一篇使用python爬虫抓站的一些技巧总结,总结了诸多爬虫使用的方法;那篇东东现在看来还是挺有用的,但是当时很菜(现在也菜,但是比那时进步了不少),很多东西都不是很优,属于”只是能用”这么个层次。这篇进阶篇打算把“能用”提升到“用得省事省心”这个层次。
一、gzip/deflate支持
现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本247K,压缩了以后45K,为原来的1/5。这就意味着抓取速度会快5倍。
然而python的urllib/urllib2默认都不支持压缩,要返回压缩格式,必须在request的header里面写明’accept- encoding’,然后读取response后更要检查header查看是否有’content-encoding’一项来判断是否需要解码,很繁琐琐 碎。如何让urllib2自动支持gzip, defalte呢?
其实可以继承BaseHanlder类,然后build_opener的方式来处理:
import urllib2
from gzip import GzipFile
from StringIO import StringIO
class ContentEncodingProcessor(urllib2.BaseHandler):
A handler to add gzip ca
您可能关注的文档
最近下载
- 2025年哈尔滨文化旅游规划设计院有限公司哈尔滨丁香人才周引才招聘笔试题库附答案.docx VIP
- 复工复产专题培训考试.docx VIP
- 2022年南京林业大学教师招聘考试真题.pdf VIP
- 《福建省综合管廊竣工测量技术规范》.pdf VIP
- 耗材领用管理制度范文.docx VIP
- 2026届广东省惠州市惠阳区高三年级上学期第一次月考语文试卷.docx VIP
- 基于林权交易的森林碳汇定价模型.pdf VIP
- 集成电路封装(先进封装关键工艺part4).pptx VIP
- 2025年哈尔滨文化旅游规划设计院有限公司哈尔滨丁香人才周引才招聘参考试题附答案解析.docx VIP
- 2020集成电路封装基板工艺.ppt VIP
原创力文档

文档评论(0)