python urllib2技术补充参考.docVIP

下载本文档

9
0
约 13页
2017-08-28 发布于河南
举报
版权申诉

python urllib2技术补充参考.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

python urllib2技术补充参考--中文版此文由我（54snapple）翻译自.uk/python/articles/urllib2.shtml。原文标题：urllib2 - The Missing Manual -副标题：HOWTO Fetch Internet Resources with Python。英文版权归文章原作者所有。转载请保留以上信息。行文仓促，未作校正，请谅解指正。简介： urllib2是python的一个获取url（Uniform Resource Locators，统一资源定址器）的模块。它用urlopen函数的形式提供了一个非常简洁的接口。这使得用各种各样的协议获取url成为可能。它同时也提供了一个稍微复杂的接口来处理常见的状况-如基本的认证，cookies，代理，等等。这些都是由叫做opener和handler的对象来处理的。 urlib2支持获取url的多种url 协议（以url中“：”前的字符串区别，如ftp是ftp形式的url 协议），用它们关联的网络协议（如HTTP,FTP）。这个教程著重于最普遍的情况--HTTP。最简单的情况下urlopen用起来非常简单。但随着你打开HTTP ur时遇到错误或无意义的事情，你需要对HTTP的一些理解。对HTTP最权威最容易让人理解的参考是RFC 2616。这是一个技术文档，而且不太容易读懂。这篇HOWTO意在用足够关于HTTP的细节阐明urllib2，使你明白。它的意图不在替换urllib2 docs，而是对它们的一个补充。获取url：以下是获取url最简单的方式： import urllib2response = urllib2.urlopen(/)html = response.read() 许多urlib2的使用都是如此简单（注意我们本来也可以用一个以“ftp:”“file：”等开头的url取代“HTTP”开头的url）.然而，这篇教程的目的是解释关于HTTP更复杂的情形。 HTTP建基于请求和回应（requests responses ）-客户端制造请求服务器返回回应。urlib2用代表了你正在请求的HTTP request的Request对象反映了这些。用它最简单的形式，你建立了一个Request对象来明确指明你想要获取的url。调用urlopen函数对请求的url返回一个respons对象。这个respons是一个像file的对象，这意味着你能用.read()函数操作这个respon对象： import urllib2req = urllib2.Request(.uk)response = urllib2.urlopen(req)the_page = response.read() 注意urlib2利用了同样的Request接口来处理所有的url协议。例如，你可以像这样请求一个ftpRequest： req = urllib2.Request(/) 对于HTTP，Request对象允许你做两件额外的事：第一，你可以向服务器发送数据。第二，你可以向服务器发送额外的信息（metadata），这些信息可以是关于数据本身的，或者是关于这个请求本身的--这些信息被当作HTTP头发送。让我们依次看一下这些。数据：有时你想向一个URL发送数据（通常这些数据是代表一些CGI脚本或者其他的web应用）。对于HTTP，这通常叫做一个Post。当你发送一个你在网上填的form（表单）时，这通常是你的浏览器所做的。并不是所有的Post请求都来自HTML表单，这些数据需要被以标准的方式encode，然后作为一个数据参数传送给Request对象。Encoding是在urlib中完成的，而不是在urlib2中完成的。 import urllibimport urllib2url = /cgi-bin/register.cgivalues = {name : Michael Foord,??????????location : Northampton,??????????language : Python }data = urllib.urlencode(values)req = urllib2.Request(url, data)response = urllib2.urlopen(req)the_page = response.read() 注意有时需要其他的Encoding（例如，对于一个来自表单的文件上传（file upload）--详细内容见HTML Specification, Form Submission ）。如果你不传送数据参数，urlib2使用了一个GET请求。一个GET请求和POS