使用python爬蟲抓站的一些技巧总结进阶篇t.docVIP

  • 4
  • 0
  • 约6.54千字
  • 约 7页
  • 2017-01-20 发布于重庆
  • 举报

使用python爬蟲抓站的一些技巧总结进阶篇t.doc

使用python爬蟲抓站的一些技巧总结进阶篇t

以前写过一篇使用python爬虫抓站的一些技巧总结,总结了诸多爬虫使用的方法;那篇东东现在看来还是挺有用的,但是当时很菜(现在也菜,但是比那时进步了不少),很多东西都不是很优,属于”只是能用”这么个层次。这篇进阶篇打算把“能用”提升到“用得省事省心”这个层次。 一、gzip/deflate支持 现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,以VeryCD的主页为例,未压缩版本247K,压缩了以后45K,为原来的1/5。这就意味着抓取速度会快5倍。 然而python的urllib/urllib2默认都不支持压缩,要返回压缩格式,必须在request的header里面写明’accept- encoding’,然后读取response后更要检查header查看是否有’content-encoding’一项来判断是否需要解码,很繁琐琐 碎。如何让urllib2自动支持gzip, defalte呢? 其实可以继承BaseHanlder类,然后build_opener的方式来处理: import urllib2 from gzip import GzipFile from StringIO import StringIO class ContentEncodingProcessor(urllib2.BaseHandler): A handler to add gzip ca

文档评论(0)

1亿VIP精品文档

相关文档