《数据采集与预处理》课件15：爬虫框架-scrapy框架深入.pptx

下载文档

0
0
约1.25万字
约 40页
2024-05-27 发布于广东
举报
版权申诉
保障服务

《数据采集与预处理》课件15：爬虫框架-scrapy框架深入.pptx

1、本文档共40页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

爬虫框架-scrapy框架深入

复习Itempipeline中数据处理函数有哪些？在爬取图片过程中的处理思路？

1、理解通用爬虫CrawlSpider的编写思路2、能编写middlewares的python类进行动态网页爬取3、了解常用的反爬虫设置教学目标

1Scrapy动态网页爬取爬虫框架-scrapy框架深入通用爬虫CrawlSpider23反爬虫设置

通用爬虫CrawlSpiderCrawlSpider基于Spider，但是可以说是为全站爬取而生。CrawlSpider是Scrapy提供的一个通用Spider。在Spider里，可以指定一些爬取规则来实现页面的提取，这些爬取规则由一个专门的数据结构Rule表示。Rule里包含提取和跟进页面的配置，Spider会根据Rule来确定当前页面中的哪些链接需要继续爬取、哪些页面的爬取结果需要用哪个方法解析等。CrawlSpider和BasicSpider模板文件有什么不同？CrawlSpider模板文件也是通过命令“scrapygenspider”生成，与生成basicspider模板文件的不同的是需要增加参数“-tcrawl”。使用名人名言quotes案例来进行讲述，生成一个新的CrawlSpider模板文件，爬虫名为quotes。参考代码如下。scrapygenspider-tcrawlquotes

通用爬虫CrawlSpider在spiders文件夹中找到quotes.py文件，浏览生成的模板文件。CrawlSpider类使用链接提取器和一组规则，其主要目的是提取链接。参考模板代码如下。链接提取器LinkExtractor和提取规则Rule

通用爬虫CrawlSpider1、链接提取器LinkExtractor链接提取器是从scrapy.http.Response对象中提取链接的对象。在Scrapy中，有内置提取器，如scrapy.linkextractorsimportLinkExtractor。链接提取器有多个，每个链接提取器都有一个名为extract_links的公共方法，其中包含一个Response对象并返回一个scrapy.link.Link对象列表。链接提取器只能实例化一次，并多次调用extract_links方法以提取具有不同响应的链接。

通用爬虫CrawlSpider1、链接提取器LinkExtractor默认情况下，链接提取器是LinkExtractor，其功能与LxmlLinkExtractor相同。是一个高度推荐的链接提取器，因为它具有方便的过滤选项，使用LXML库强大的HTMLParser的解析器。链接提取器的基本语法格式如下。classscrapy.linkextractors.lxmlhtml.LxmlLinkExtractor(allow=(),deny=(),#允许、拒绝url地址，使用正则表达式进行匹配allow_domains=(),deny_domains=(),deny_extensions=None,#允许或拒绝的域名restrict_xpaths=(),restrict_css=(),#使用xpath、CSS表达式提取指定区域链接tags=(a,area),attrs=(href,),#html标记或属性提取process_value=None)#回调函数

通用爬虫CrawlSpider2、提取规则RuleRule的作用是定义抽取链接的规则,多个规则组成rules。基本语法格式如下。rules={Rule(LinkExtractor链接提取器，callback，follow)，}参数说明LinkExtractor提取器:设定提取规则,一般为正则表达式。Callback:回调函数Follow:是否跟进。当Callback为None时，默认follow为true。当Callback不为None时，follow为False。

通用爬虫CrawlSpider2、提取规则RuleRule的作用是定义抽取链接的规则,多个规则组成rules。规则中常用正则表达式的含义如下表模式描述^匹配字符串的开头$匹配字符串的末尾.匹配任意字符，除了换行符[]用来表示一组字符,单独列出：[am]匹配a，mre*匹配0个或多个的表达式re+匹配1个或多个的表达式re?匹配0个或1个由前面的正则表达式定义的片段\d匹配任意数字，等价于[0-9].\D匹配任意非数字\S匹配任意非空字符\s匹配任意空白字符\w匹配字母数字及下划线\W匹配非字母数字及