Python入门学习必会几点!.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国IT职业教育领先品牌 精品课程 全程面授 Python 入门学习必会的几点! 今天给入门Python 的小伙伴们分享点干货,欢迎阅读分享。 1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一 张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就 会抓取下来。想抓取什么?这个由你来控制它咯。 比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超 链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对 这之蜘蛛来说触手可及,分分钟爬下来不是事儿。 2.浏览网页的过程 在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 / ,我们会看到几张的图片以及百度搜索框,这个过程其 实就是用户输入网址之后,经过DNS 服务器,找到服务器主机,向服务器发出 一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件, 浏览器解析出来,用户便可以看到形形色色的图片了。 因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容, 通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。 3.URL 的含义 URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互 联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的 地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置 以及浏览器应该怎么处理它。 URL 的格式由三部分组成: ①第一部分是协议(或称为服务方式)。 ②第二部分是存有该资源的主机IP 地址(有时也包括端口号)。 ③第三部分是主机资源的具体地址,如目录和文件名等。 爬虫爬取数据时必须要有一个目标的URL 才可以获取数据,因此,它是爬虫获取 数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。 千锋教育 中国IT职业教育领先品牌 精品课程 全程面授 4. 环境的配置 学习Python,当然少不了环境的配置,最初我用的是Notepad++,不过发现它的 提示功能实在是太弱了,于是,在Windows 下我用了PyCharm,在Linux 下我用 了Eclipse for Python,另外还有几款比较优秀的IDE, 。好的开发工具是前进的 推进器,希望大家可以找到适合自己的IDE。 首先我们调用的是urllib2 库里面的urlopen 方法,传入一个URL,这个网址是百 度首页,协议是HTTP 协议,当然你也可以把HTTP 换做FTP,FILE,HTTPS 等等,只 是代表了一种访问控制协议,urlopen 一般接受三个参数,它的参数如下: 第一个参数url 即为URL,第二个参数data 是访问URL 时要传送的数据,第三个 timeout 是设置超时时间。 第二三个参数是可以不传送的,data 默认为空 None ,timeout 默认为 socket._GLOBAL_DEFAULT_TIMEOUT 第一个参数URL 是必须要传送的,在这个例子里面我们传送了百度的URL,执行 urlopen 方法之后,返回一个response 对象,返回信息便保存在这里面。 response 对象有一个read 方法,可以返回获取到的网页内容。 如果不加read 直接打印会是什么?答案如下: 直接打印出了该对象的描述,所以记得一定要加read 方法,否则它不出来内容 可就不怪我咯! .构造Request 其实上面的urlopen 参数可以传入一个request 请求,它其实就是一个Request 类 的实例,构造时需要传入Url,Data 等等的内容。比如上面的两行代码,我们可以 这么改写 import urllib2request = urllib2.Request()response = urllib2.urlopen(request)print response.read() 运行结果是完全一样的,只不过中间

文档评论(0)

xiaofei2001129 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档