使用python爬蟲抓站的一些技巧总结进阶篇t.docVIP

下载本文档

4
0
约6.54千字
约 7页
2017-01-20 发布于重庆
举报

使用python爬蟲抓站的一些技巧总结进阶篇t.doc

使用python爬蟲抓站的一些技巧总结进阶篇t

以前写过一篇使用python爬虫抓站的一些技巧总结，总结了诸多爬虫使用的方法；那篇东东现在看来还是挺有用的，但是当时很菜（现在也菜，但是比那时进步了不少），很多东西都不是很优，属于”只是能用”这么个层次。这篇进阶篇打算把“能用”提升到“用得省事省心”这个层次。一、gzip/deflate支持现在的网页普遍支持gzip压缩，这往往可以解决大量传输时间，以VeryCD的主页为例，未压缩版本247K，压缩了以后45K，为原来的1/5。这就意味着抓取速度会快5倍。然而python的urllib/urllib2默认都不支持压缩，要返回压缩格式，必须在request的header里面写明’accept- encoding’，然后读取response后更要检查header查看是否有’content-encoding’一项来判断是否需要解码，很繁琐琐碎。如何让urllib2自动支持gzip, defalte呢？其实可以继承BaseHanlder类，然后build_opener的方式来处理： import urllib2 from gzip import GzipFile from StringIO import StringIO class ContentEncodingProcessor(urllib2.BaseHandler): A handler to add gzip ca

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

使用python爬蟲抓站的一些技巧总结进阶篇t.docVIP