手把手教你使用scrapy框架来爬取北京新发地价格行情（实战篇）.docxVIP

下载本文档

28
0
约2.45千字
约 7页
2021-11-16 发布于湖南
举报
版权申诉

手把手教你使用scrapy框架来爬取北京新发地价格行情（实战篇）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

手把手教你使用scrapy框架来爬取北京新发地价格行情（实战篇）前言 ????关于Scrapy理论的学问，可以参考我的上一篇文章，这里不再赘述，直接上干货。实战演练爬取分析首先我们进入北京新发地价格行情网页并打开开发者工具，如下图所示：经过简约的查找，发觉每个getPriceData.html存放着价格行情的数据，由此可得，我们可以通过getPriceData.html来进行数据的猎取。观看Headers恳求，如下图所示：发觉它是POST恳求，恳求URL链接是/getPriceData.html，current是翻页的重要参数，limit是每页有多少行数据，我们可以构造消息体，代码如下所示： data={ limit: 20, current:page } 通过scrapy.Request()方法将消息体传入到参数里面。或者我们可以依据测试和观看规律，本人构造URL链接，通过观看分析，恳求的URL链接可以为： /getPriceData.html?limit=20¤t=1 /getPriceData.html?limit=20¤t=2 /getPriceData.html?limit=20¤t=3 创建Spider爬虫分析北京新发地价格行情后，接下来我们首先创建一个Scrapy项目，使用如下命令： scrapy startproject Vegetables 这样我们就成功创建了一个Scrapy项目，项目文件如下所示：接下来创建spider爬虫，使用如下命令： scrapy genspider vegetables 创建后vegetables.py内容如下所示： import scrapy class VegetablesSpider(scrapy.Spider): name = vegetables allowed_domains = [] start_urls = [] def parse(self, response): pass 提取数据在提取数据前，我们首先把要爬取的数据字段在items.py文件中定义好，代码如下所示： import scrapy class VegetablesItem(scrapy.Item): # define the fields for your item here like: productName = scrapy.Field() lowPrice=scrapy.Field() highPrice=scrapy.Field() 这里我们定义了三个字段分别是productName、lowPrice、highPrice 定义好字段后，接下来将在创建的vegetables.py文件中进行数据的提取，具体代码如下 import scrapy from Vegetables.items import VegetablesItem class VegetablesSpider(scrapy.Spider): name = vegetables allowed_domains = [] def start_requests(self): for i in range(1, 3): url = f/getPriceData.html?limit=20¤t={i} yield scrapy.Request(url=url, callback=self.parse) def parse(self, response): html = response.json() fooddata = html.get(list) for i in fooddata: item=VegetablesItem() item[highPrice] =i.get(highPrice), item[lowPrice] = i.get(lowPrice), item[prodName] = i.get(prodName), yield item 首先我们导入vegetablesitem，使用start_requests函数实现翻页，大家可以使用刚才我们所讲的方法实现翻页，实现翻页后，我们通过编写parse()方法实现数据的猎取，首先我们把引擎响应的数据以json()格式存放在html里面，调用get()方法来提取我们想要的数据，最终通过yield生成器前往给引擎。最终我们在settings.py设置引擎的启