- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8讲 爬虫实例 - 复件
* * * * * * * * * * * * * * * * * * * * * * * * * * 8.2 XPath基础知识 8.2.4 XPath 运算符 01 运算符 描述 实例 返回值 | 计算两个节点集 //book | //cd 返回所有拥有 book 和 cd 元素的节点集 + 加法 6 + 4 10 - 减法 6 - 4 2 * 乘法 6 * 4 24 div 除法 8 div 4 2 = 等于 price=9.80 如果 price 是 9.80,则返回 Ture。 如果 price 是 9.90,则返回 False。 != 不等于 price!=9.80 如果 price 是 9.90,则返回 True。 如果 price 是 9.80,则返回 False。 小于 price9.80 如果 price 是 9.00,则返回 True。 如果 price 是 9.90,则返回 False。 8.2 XPath基础知识 8.2.4 XPath 运算符 01 运算符 描述 实例 返回值 = 小于或等于 price=9.80 如果 price 是 9.00,则返回 True。 如果 price 是 9.90,则返回 False。 大于 price9.80 如果 price 是 9.90,则返回 True。 如果 price 是 9.80,则返回 False。 = 大于或等于 price=9.80 如果 price 是 9.90,则返回 True。 如果 price 是 9.70,则返回 False。 or 或 price=9.80 or price=9.70 如果 price 是 9.80,则返回 True。 如果 price 是 9.50,则返回 False。 and 与 price9.00 and price9.90 如果 price 是 9.80,则返回 True。 如果 price 是 8.50,则返回 False。 mod 计算除法的余数 5 mod 2 1 8.3 Scrapy与爬虫 8.3.1 Scrapy介绍 经常发现使用python编写爬虫的相关文章,使用urllib2便可以简单的实现,但如果涉及到更进阶的东西,比如爬取时的网站认证、内容的分析处理、重复抓取、分布式爬取等等复杂的爬虫也并不是容易的事。 在google上或通过GitHub可以检索到相关并成熟的针对网站爬取的框架,Scrapy就是最著名并被广泛认可与使用的框架之一,源码托管在GitHub上(/scrapy/scrapy),官网()。 官方文档对其详细描述为:“Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫”。 01 8.3 Scrapy与爬虫 8.3.2 知识准备以及相关资料 推荐一篇文章:Python 爬虫如何入门学习?(/question 需要学习的有: 基本的爬虫工作原理; 基本的http抓取工具:scrapy; Bloom Filter: /bloomfilter-tutorial/ ; 如果需要大规模网页抓取,需要学习分布式爬虫的概念; rq和Scrapy的结合:/darkrho/scrapy-redis; 后续处理,网页析取(/grangier/python-goose ),存储(Mongodb)。 01 8.3 Scrapy与爬虫 8.3.3 Scrapy安装 Step1:安装Python2.7 基本的爬虫工作原理; Step2:打开“运行”,输入cmd。执行以下命令,设置环境变量: a) C:\Python27\python.exe b) C:\Python27\tools\Scripts\win_add2path.py Step3:重新打开cmd,输入命令“python -version”; --如果有显示Python2.7.x则说明成功 --如果没有,重启系统尝试一下 Step4;安装pywin32(/projects/pywin32/); Step5:安装pip,地址:https://pip.pypa.io/en/latest/installing.html a) 下载get-pip
文档评论(0)